Кукуц Шмукуц ([info]kukutz) wrote,

Категории

В каких случаях, при наличии поиска с морфологией, антранслитом и синонимами по некоторому массиву информации вам, как пользователю, нужно было бы уметь навешивать категории (не люблю слово "теги") на куски информации из этого массива?

Мне пока совсем это неочевидно.

NB: Можно приводить примеры из любой области, т.е. про любой массив информации, мне интересны все варианты.

  • Post a new comment

    Error

    Your IP address will be recorded 

  • 119 comments
Previous
← Ctrl← Alt
  • 1
  • 2
Next
Ctrl →Alt →

[info]9000

October 28 2005, 19:53:21 UTC 6 years ago

А как можно было бы *вообще* навешивать категории?
Типа "радиатор как кулер" vs "радиатор как автозапчасть" vs "радиатор как батарея в доме"? Это, видимо, по контексту можно дополнительными ключевыми словами добить.

Хотя группировать результаты поиска по темам, как это делает teoma, иногда очень удобно. Но нечасто.

[info]kukutz

October 28 2005, 20:09:34 UTC 6 years ago

Не осознал ни вопроса, ни комментария.

Приведи пример массива информации, на который ты не понимаешь, как можно было бы навесить категории.

[info]9000

6 years ago

[info]kukutz

6 years ago

[info]9000

6 years ago

[info]kukutz

6 years ago

[info]9000

6 years ago

[info]elephantum

6 years ago

[info]kukutz

6 years ago

[info]kuchin

6 years ago

[info]quappa

6 years ago

[info]_arty

6 years ago

[info]quappa

6 years ago

[info]_arty

6 years ago

Anonymous

October 28 2005, 19:55:23 UTC 6 years ago

Легко.

Если я повесли 2 тага: tech и fun, то это означает, что это смешно для технарей. И как составить поисковый запрос на такую вещь я придумать ну никак не могу.

[info]bacek

October 28 2005, 19:56:50 UTC 6 years ago

Это я был.

[info]kukutz

6 years ago

[info]elephantum

6 years ago

[info]bacek

6 years ago

[info]alickop

October 28 2005, 20:01:49 UTC 6 years ago

Если взять пример ЖЖ, то лично я тэги использую не для поиска какой-либо заметки (для этого есть самзнаешьчто), а ради возможности быстрого получаения тематической выборки. Ключевое слово "быстрого". Нажать на ссылку - проще, чем составить хитрый поисковый запрос, который будет учитывать все факторы, согласно которым я отношу те или иные записи к категории, к примеру, "фото".

[info]kukutz

October 28 2005, 20:08:36 UTC 6 years ago

То есть достаточно умный поиск (знает, что по слову "фото" надо бы найти все записи, в которых есть img src) заменил бы необходимость чего-то там ручками писать?

[info]9000

6 years ago

[info]kukutz

6 years ago

[info]9000

6 years ago

[info]david_m

6 years ago

[info]petrenko_v

2 years ago

[info]alickop

6 years ago

[info]_arty

October 28 2005, 20:03:57 UTC 6 years ago

запись в какой-то категории можно написать так, что не будет включено ни одно слово из описывающих эту категорию
у меня так достаточно часто получается

[info]kukutz

October 28 2005, 20:07:24 UTC 6 years ago

И что помешает найти эту запись нормальным поиском?

[info]_arty

6 years ago

[info]kukutz

6 years ago

[info]_arty

6 years ago

[info]_arty

6 years ago

[info]zzang

6 years ago

[info]zzang

6 years ago

[info]quappa

October 28 2005, 20:06:29 UTC 6 years ago

Если массив достаточно большой, то мне, как пользователю, его никогда не прошить целиком никаким рубрикатором и никакой таксономией. Интересно, когда это делает толпа неизвестных доброхотов.

Яховский myweb мне лично уже сейчас ощутимо помогает в ежедневном поиске по обычному вебу. Практически любой запрос приводит к тому, что обнаруживаются страницы с соответствующими тэгами, к которым доверия больше и от которых больше пользы.

А если говорить о действительно произвольном массиве информации, то всё совсем очевидно. Мой фотоархив в 20000 файлов с именами в 8 символов не имеет никакой ценности без системы категорий, которая на него натянута.

[info]kukutz

October 28 2005, 20:16:02 UTC 6 years ago

Правда ли, что так только myweb начнут обживать роботы и спамеры, то доверия к тагам останется столько же, сколько к <meta keywords>?

---

Про пример с фотоархивом спасибо, действительно, я пока только про текстовые массивы.

[info]quappa

6 years ago

[info]kukutz

6 years ago

[info]quappa

6 years ago

[info]zzang

6 years ago

[info]quappa

6 years ago

[info]zzang

6 years ago

[info]quappa

6 years ago

[info]zzang

6 years ago

[info]quappa

6 years ago

[info]zzang

6 years ago

[info]quappa

6 years ago

[info]zzang

6 years ago

[info]anton

October 28 2005, 20:10:22 UTC 6 years ago

Когда я не ищу чего-то конкретного, а хочу лишь почитать чего-то по теме. Не представляю, как поиском найти все, скажем, новости о технологиях. По крайней мере, категории это сильно упрощают даже при наличии поиска.

[info]kukutz

October 28 2005, 20:13:38 UTC 6 years ago

То есть добавляем к поиску ещё нормальную кластеризацию и/или тематическую классификацию - и зашибись?

См. news.yandex.ru например, раздел "Интернет".

---

> По крайней мере, категории это сильно упрощают даже при наличии поиска.

То есть тебя не волнует полнота, да? Потому что ясно, что 70% потока не категоризировано авторами, а остальные 30% категоризированы десятками разных тагов.

[info]anton

6 years ago

[info]kukutz

6 years ago

[info]bacek

6 years ago

[info]kukutz

6 years ago

[info]extremus

October 28 2005, 20:11:21 UTC 6 years ago

Если в качестве дополнительного параметра к поисковому запросу, то для задания категорий, которые не искать, то есть для отсечения заведо лишних результатов.

Если же речь о результатах поиска, то метки бы пригодились, когда результаты сохраняются, чтобы к ним можно было вернуться.

[info]kukutz

October 28 2005, 20:17:46 UTC 6 years ago

Я не понял комментария, потому что все фразы не являются полными.

Если что в качестве дополнительного параметра?

[info]extremus

6 years ago

[info]veged

October 28 2005, 20:25:12 UTC 6 years ago

например в том случае, когда элементами массива являются изображения. это как "убийственный" пример для современного поиска. думается что существуют примеры и текстовой информации, которая напрямую не содержит сведений по которым я её потом смогу найти, но тут не так однозначно

[info]kukutz

October 28 2005, 20:26:42 UTC 6 years ago

Про изображения уже сказали, это правда, спасибо.

А вот про текстовую попробуй придумать пример, это будет интересно.

[info]veged

6 years ago

[info]kukutz

6 years ago

[info]elephantum

October 28 2005, 20:29:34 UTC 6 years ago

как обратный пример, когда не справляется обычный поиск - я не хочу получать тексты про стеклопакеты при запросе "окна".

[info]elephantum

October 28 2005, 20:40:17 UTC 6 years ago

кстати, как пример победы фолксономии: текст доказательства теоремы ферма - ни разу не включает в себя слово математика и имя ферма.

[info]alex_and_r

October 28 2005, 20:34:58 UTC 6 years ago

Можно я не отвечу, а переспрошу? Просто я пока ответ не подготовил, т. к. видимо толком вопрос не понял.

Итак, есть у нас масиив данных. Так? Так.
Итак, есть у нас инструмент поиска по нему. Этот инструмент изощрен и очень сложен и таким образом позволяет при грамотном построении запроса (или все же просто при любом запросе?) найти абсолютно все, что нужно и при этом результаты будут максимально релевантны. Так?
Итак, есть у нас еще и инструмент навешивания категорий на отдельные куски из массива. Так? Так.

Вопрос: Зачем нам этот инструмент категоризации?

Я правильно вас понял?

[info]alex_and_r

October 28 2005, 20:37:53 UTC 6 years ago

Или все же вопрос: Каким должен быть массив инфы из пункта 1, чтобы нам понадобился инструмент из пункта 3?

[info]kukutz

6 years ago

[info]alex_and_r

6 years ago

[info]kukutz

6 years ago

[info]linker

October 28 2005, 20:35:20 UTC 6 years ago

Без некоего унифицированного каталога категорий-тегов, на каждый элемент которого можно навесить алиасы из юзерских категорий-тегов не обойтись. И без специальной команды модераторов(бесплатным со стороны или за бабло), раскладывающих этот трэш по веткам тоже никак.

Иначе всё скатится к поиску по ещё одному атрибуту, а не отбору по фильтру, коим категория-тег и является.

Кстати, может - возможность поиска юзеров с похожими категориями-тегама?

[info]nikanorov

October 28 2005, 21:09:50 UTC 6 years ago

смотря кто таги будет расставлять. если не человек...

кстати если, наприер, в объёме (ну и формате) del.icio.us, то можно очень подробный и правилный список alias получить. ну просто очень.

[info]linker

6 years ago

[info]nikanorov

6 years ago

[info]linker

6 years ago

[info]nikanorov

6 years ago

[info]ex_ex_gluek

October 28 2005, 20:37:35 UTC 6 years ago

Например, небольшие заметки я пишу с тегом "notes", а какие-либо крупные статьи с тегом "articles". Как искать их поиском?

[info]kukutz

October 28 2005, 20:50:34 UTC 6 years ago

А их нужно искать? Каков сценарий? "Найти все мои статьи, чтобы выбрать среди них те, которые ещё не опубликованы в СМИ"? Если такой, то понимаю, ага. Метаинформация. То же, что поиск в картинках =)

[info]mendokusee

6 years ago

[info]nikanorov

6 years ago

[info]nikanorov

6 years ago

[info]nirva

October 28 2005, 20:43:49 UTC 6 years ago

грубо говоря если о поисковых машинах.
есть фильм "Х", какдры которого я пытаюсь найти. поскольку "X" имеет свое значение в нескольких областях науки, есть н книг дефолт и игрек песен, и двадцать блюд и напитков с таким названием, я дополнительно ввожу, что меня интересует записи из всего, что помечено как "кино".
или совсем живой пример.
представим что есть некая программа (организация, блюдо, итп) far (away, for, once) и мы не знаем конкретно что она делает (из чего состоит, сколько стоит, как готовится).
http://www.google.com/search?client=opera&rls=en&q=far&sourceid=opera&ie=utf-8&oe=utf-8
найти что-либо становится не простой задачей. встречался с таким в жизни.

есть предположение, что морфология, антранслит итп средства увеличивают возможности (мощь?) поиска. а категории сводят в минимум нежелаемые варианты. то есть кулинария, десерты, торты, рецепты "X" приведут меня как ищущего к рецепту торта "X".

фактически как аналог с библиотекой. есть сто авторов на букву Ы. а если их разбить по жанрам останется по 5-15 на жанр. что несомнено при определенных знаниях облегчит поиск.

[info]yorool_gui

October 28 2005, 20:45:31 UTC 6 years ago

1. когда этот массив информации должен впоследстви обрабатываться автоматически. Например на одном из сайтов у меня теги используется для выдачи статей, имеющих отношение к текущему разделу каталога товаров.
2. когда теги назначаются автоматически -- как на gmail. Например все письма, содержащие в subj слова login, account, password у меня автоматически получают тег password, а все, что приходит с LJ -- тег "LJ comment".

Вручную же назначать теги чтобы потом самому же по ним что-то искать -- это онанизм IMHO.

[info]ush

October 28 2005, 20:53:31 UTC 6 years ago

Есть поиск, а есть каталог. Это вещи совершенно разные функционально, и одна другой не заменяет.

Это, кстати, большая проблема всех вики-сайтов. Пришедший левый читатель сразу теряется, непонятно что вообще здесь можно найти. Как книга без оглавления, но с индексом.

Теги нужны не для поиска, а для выборочного чтения по теме, причём разбиение на темы задаётся автором, который в собственной информации ориентируется гораздо лучше читателя. Они не панацея, но помогают сильно.

[info]nikanorov

October 28 2005, 21:12:52 UTC 6 years ago

Теги нужны не для поиска, а для выборочного чтения по теме
А чем поиск по теме "хостинг" отличается от "выборочного чтения" по кейворду "хостинг"?

[info]ush

6 years ago

[info]nikanorov

6 years ago

[info]ush

6 years ago

[info]_arty

6 years ago

[info]kingoleg

October 28 2005, 21:14:47 UTC 6 years ago

Например, чтобы показать еще кому-то перечень затрагиваемых тем

[info]yurkennis

October 28 2005, 21:16:32 UTC 6 years ago

1. привязка к проекту (напр, GTDшному -- известному только мне) специфичной подборки. Самый простой пример -- gift4kukutz в Маркете или в ru.reader2.

2. краткая подборка интересного именно мне из большого объёма точно относящегося к теме поиска

3. не все таксономии, нужные пользователям, предусмотришь. можно поразмышлять над примерами, но для начала см. дискуссию про Rollyo.com.

А вообще, главная причина для создания тегов -- страшная дешевизна за сопоставимую с умными автоматами полезность.

[info]k001

October 28 2005, 21:31:47 UTC 6 years ago

да не нужны теги - всегда можно обойтись дополнительными условиями в запросе (особенно если сам URL индексируется) -- так мне мой опыт подсказывает.

[info]emdin

October 28 2005, 23:42:22 UTC 6 years ago

Ну, тут уже двадцать раз сказали, в принципе. Категория в контенте вообще не обязана появляться. Более того, в качестве постоянного участника кубка.яндекс я начинаю подозревать, что она, как правило, и не появляется. Автор редко когда достоверно понимает, что за информацию он создал и кто и для чего её будет искать. Создание категорий -- это отдельное интересное занятие; как правило, им имеет смысл заниматься после создания категоризируемого объекта, когда уже можешь посмотреть на его смысл со стороны. В процессе категоризации начинаешь воображать будущего себя или не себя, которому когда-то там зачем-то понадобится эта информация. Надо этого себя или не себя предугадать и помочь ему. Такая капсула от строителей метрополитена.

Например, на любимом dirty.ru в ссылках про политику, к счастью, почти никто не употребляет собственно словоформы от корня "полит". Но если бы мы задались целью найти все так или иначе тематические ссылки, то скрытая, чтоб не портить концепцию, категория "политика" нам бы в этом помогла.

[info]netklon

October 29 2005, 01:51:45 UTC 6 years ago

Я бы назвал их не тагами или категориями, а ключевыми словами или метками.

На примере букмарксервиса.
Окружить ссылку метками - значит составить персональный набор векторов для последующего поиска. Это лучше обычного поиска тем, что автор совсем не обязательно имеет в тексте слова, которые я понимаю также как и он, а еще я пишу метки на русском, а текст например на английском.

[info]kolomeetz

October 29 2005, 03:42:13 UTC 6 years ago

Тэги полезны в описанном тобою случае, чтобы добавить массиву знаний обозримости: смотришь на список тэгов и примерно уже понимаешь, что за массив перед тобой, и с какой стороны его начинать бороздить.

[info]61man

October 29 2005, 08:07:32 UTC 6 years ago

тему придумаю в конце

Общественность сместила свой интерес в область поисковых машин. Давайте попробуем посмотреть свысока вообще на процесс поиска. Есть массив информации. Для реализации поиска по этому массиву выбирается единица этой информации и определяются ее отличительные особенности от других единиц. В случае поисковых машин в сети единицей выступает слово (пусть условно будет так), которое состоит из букв (известных и в обозримом будущем неизменных). (Насколько мне известно Яндекс в процессе индексации делает морфологический разбор и заносит некоторый ID слова к себе в индекс а не само слово, и я думаю так делают многие ПС). Таким образом в поисковой машине уже заложена изначально классификация по словам. Надо сказать это классификация очень низкого уровня. Но и ПС вещи очень широкого применения.

Когда вы заходите в книжный магазин вы видите полки с надписями (Фантастика, Современная Проза и т.п.) Это классификация более высокого уровня.

Таким образом ответ на твой вопрос:
Всегда, когда использование кластеризации/классификации/разделения будет оправдано.
Когда это может быть оправдано? 1. Чаще всего когда это сэкономит время на поиск.
2. Когда даст новое *понимание* самого массива информации.

В вузе не зря заставляют зазубривать классификацию это дает человеку знание обо всех изучаемого предмета. Вспомните, что сделал Менделеев изобрев свою таблицу. Я по образованию металловед и могу сказать что своиства сплава очень сильно зависят от положения в таблице Менделеева элементов которые в этот сплав добавлены. И элементы стоящие пососедству нередко дают схожие свойства.

Utx и подобные очень удобны для редакторов газет. "Чтобы написать статью, нужно написать много заметок" сказала однажды мне главный редактор вузовской газеты. А заметки мы пометим спец. метками руководствуясь устройством своих мозгов. И это нам потом поможет сэкономить кучу времени.

Заметьте это касается любого массива информации и любого способа ее классификации. Фото, видео, звук. Даже классификации можно классифицировать.

[info]mendokusee

October 29 2005, 09:41:26 UTC 6 years ago

Re: тему придумаю в конце

> своиства сплава очень сильно зависят от положения в таблице Менделеева элементов которые в этот сплав добавлены.

Вычёркиваем слова "положения в таблице Менделеева" и получаем что-то, отличающееся от неосмысленного бреда.

Кстати, сколько периодических таблиц Вам известно? Почему?

[info]61man

6 years ago

[info]cactusinside

October 29 2005, 09:38:47 UTC 6 years ago

1. мне интересны категории с точки зрения фолксономии -в поиске по ключ.словам алгоритм поисковика ранжирует, здесь "миллион леммингов, которые не могут ошибаться".

2. как упрощение и ускорение самой процедуры поиска - кучу синонимов и близких по значению слов я объеденяю в свою личную категорию, которую проще вспомнить и указать при поиске, чем вводить сразу кучу вариантов. Не парюсь на каком языке я ищу, просто задал категорию(которую до этого навесил) и получил ресурсы на разных языках.

[info]darxeth

October 29 2005, 10:32:11 UTC 6 years ago

1. Полнотекстовый поиск по этому массиву выполняется дольше, чем ручная выборка по категории (актуально для локальных файлов).
2. Поиск по содержимому невозможен (актуально для картинок, вебкомиксов, etc).
3. Куски информации откладываются с намерением "прочитать при необходимости" (я ещё не знаю содержания в момент поиска).
4. Массив создаётся с расчётом на других пользователей (категории вводить быстрее, чем аннотации).

Есть ещё какие-то, но сейчас в голову не приходят.

[info]fairplay

October 29 2005, 11:07:38 UTC 6 years ago

Для скорости. Если в социальных системах, типа делишеса или фликера, вместо набора текстового описания, для перфекционистов (а остальные просто забьют на это описание) сопряжённого ещё и с борьбой за орфографию и пунктуацию, по которому потом, после индексации, можно будет осуществлять поиск, вбить пару коротких слов, зачастую просто выбрав из уже готового списка сэкономит кучу времени.
+ метки для записей в блогах, или, там, для ссылок в делишес, они как рефераты для научных статей. Текст док-ва теоремы Ферма может не содержать слова „Ферма“, но реферат этого текста будет содержать его наверняка, что поможет при поиске. Метаинформация, да, вытягивание которой из текста документа автоматическими кластеризаторами это полный rocket science.
Previous
← Ctrl← Alt
  • 1
  • 2
Next
Ctrl →Alt →
Create an Account
Forgot your login or password?
Facebook Twitter More login options
English • Español • Deutsch • Русский…