Консалтинг Системная интеграция PLM-решения Внедрение бизнес-приложений Сервис и поддержка
 
 
 

Вадим Ефремов: "Search 2.0: огонь по «хвостам»".

Экспоненциальный рост Сети, о котором все, конечно, слышали, не можетпродолжаться вечно, иначе нас просто ждет информационный коллапс. Объемнакопленной информации уже сейчас так велик, что «топит» результатыпоиска по Internet.

Сохраняя оптимизм, не следует игнорировать реальныепроцессы, сопутствующие росту Сети, которые следует учитыватьспециалистам, занятым корпоративным поиском.

Процесс 1. По мере роста числа документов в Сети растет среднее число документов в ответ на запрос.

Еслирасширенный поиск дает 10% попаданий в исходном массиве документов, тоон вернет ответ размером в 100 документов для массива из 1000документов, а тот же запрос, сделанный чуть позднее к массиву,выросшему в два раза, даст уже 200 документов. Возможно, такоеколичество ответов придет не на каждый запрос — конкретный составдокументов со временем может изменяться, могут появляться и исчезатьспецифические термины, но средний размер списка ответов будет растиэкспоненциально, отражая общий рост накопленных данных. Это такназываемая проблема «хвостов», которая связана с необходимостьювторичной идентификации результатов поиска (рис. 1). На практике,сделав запрос на поиск нужных вам документов, вы получаете списокответов (иногда это несколько десятков тысяч документов), которыеприходится просматривать последовательно, отбирая релевантные, ипродолжительность такого процесса может на порядки превышать времяпервичного поиска. Применяемые разными поисковиками приемы ранжированиясписка ответов (первые в списке — «самые» релевантные) не снимаютпроблему полноты и точности — пропуск нужного документа может больноударить по карману, поэтому приходится просматривать все, а сокращение«хвостов» возможно только за счет удаления «мусора» и повторновыдаваемых документов.

Рис. 1. Проблема «хвостов» общедоступных (публичных) информационно-поисковых систем

Процесс 2. Количество корпоративных данных растет экспоненциально.

Есливспомнить 90-е годы прошлого столетия, когда общедоступный Internetтолько начинал раздвигать свои границы, пресса сообщала о накоплении всети 10 млн. страниц, 100 млн. страниц, 1 млрд. страниц и т.д., асегодня многие корпоративные сети уже соизмеримы с Internet 90-х годов.За прошедшие годы мы научились быстро искать и находить нужныедокументы в столь внушительных массивах — время поиска не растетпропорционально объему накопленной информации (если вообще растет), нопроблема «хвостов», унаследованная от публичных информационно-поисковыхсистем, стала более острой, поскольку пропуск искомого документа можетоказаться фатальным для предприятия.

К счастью,возможности хоть как-то решать проблему «хвостов» в корпоративныхпоисковых системах и уж, конечно, в системах управления контентомпредприятия (Enterprise Content Management, ECM) значительно шире.Однако заметим, что сегодня все эти решения носят паллиативный характер— они не направлены на устранение первопричины (экспоненциального ростаобъема данных), а являются лишь попыткой устранить «симптом большогохвоста». Тем не менее шансов избежать «информационного коллапса» илихотя бы отсрочить его наступление у корпоративных систем больше, чем упубличных.

Единственный релевантный ответ — этокогда в ответ на запрос поисковик возвращает самые релевантные ответына первой странице результатов. Ранние разработки такой «релевантности»основывались исключительно на содержимом самих документов, а позднейшиедобавили еще и внешние характеристики, такие как ранжирующие ссылки уGoogle. Но поскольку объем данных растет экспоненциально, топроигрывают все. И дело не в том, что нет хороших алгоритмов, дело втом, что с ростом массива документов даже самые релевантные документымогут не поместиться на первой странице. Поэтому классический«единственный релевантный ответ» обречен.

Вместе стем, если проанализировать содержимое списка ответов любой публичнойинформационно-поисковой системы, то легко обнаружить большое количествоповторов — наличие одинаковых документов (дубликатов) на разных сайтахв Сети неизбежно приводит к увеличению списка результатов. Для тогочтобы избавиться от этих повторов, необходимо ответить на вопрос, чтотакое дубликат. Является ли дубликатом копия предыдущего в спискеответов документа, если окружающие его данные на странице сайтаотличаются от предыдущих? Например, два электронных магазина предлагаютвам одну и ту же книгу, но по разной цене. Для системы Google это оченьнепростая задача, а вот для корпоративной информационно-поисковойсистемы — вполне посильная. В корпоративной системе ‘дедупликация’может стать рутинной процедурой, в которой заинтересованы все.

Заплатки для отсрочки

Поисковикистали включать сегодня внешние по отношению к документам данные дляоценки их релевантности запросу, например Google использует ранжирующиессылки, принимая во внимание число других сайтов, связанных с найденнойстраницей. Видимо, его разработчики исходят из предположения, чтобольшее число ссылок делается на более релевантную страницу. Другиестали учитывать количество предыдущих просмотров документов в спискерезультатов. Если каждый набравший конкретный запрос обязательнопросматривал документ № 3, то этот документ, скорее всего, оченьважный, и его следует размещать выше в списке ответов. Другиепоисковики работают с «контекстом», пытаясь понять мотивацию вашихпредыдущих обращений или ваши функции в корпорации.

Всеэто прекрасно, однако внутри корпоративной сети такие усилияоказываются неэффективны. Ранжирующие ссылки от Google не помогаютвнутри корпорации, поскольку ссылки на страницы продиктованыорганизационной структурой предприятия или ее корпоративнымиустремлениями и не отражают отношения между пользователями. Кромеэтого, оплата публичной поисковой системе высокого места в спискеответов в рамках систем ECM уже не работает. Но по своей сути все этиусилия по-прежнему лежат в русле логики единственного релевантногоответа.

Безусловно, даже общественный порталGoogle стремится давать сегодня подходящие ответы на большинствозапросов, но если вы ищете то, что не совпадает с интересамибольшинства, или вы не можете подобрать правильные термины присоставлении запроса, то Google может страницу за страницей выдавать«мусор». Экспоненциальный рост не по зубам даже ранжированию от Google.

«Бантики» на «хвост»

Посколькуни один поисковик не может решить проблему большого «хвоста» игарантировать, что «наилучший» ответ непременно окажется первым всписке результатов, то самое большее, что они могут, — предоставитьудобные инструменты, способные показать пользователю, какая информацияему доступна в списке ответов, и дать средства навигации в этом хаосе.

Врезультате список найденных документов превращается в интерактивныйинструментарий, который может показать, какие типы данных предложеныпользователю в качестве ответов, и позволяют быстро ориентироваться вэтих данных. В некоторых случаях обработанный этими инструментамисписок результатов может содержать даже полный ответ на ваш запрос.

Краткорассмотрим навигационные средства для корпоративных поисковиковподобных «Search v.2». Приведенные примеры не есть попытка сопоставитьфункции конкретных поисковиков, они нужны только как иллюстрация технаправлений, в которых развивается углубленный поиск (Drill DownSearch).

Текстовые навигаторы углубленного поиска.Наиболее общими являются средства итеративного поиска элементов врезультатах поиска. Если их правильно применять, то они оказываютсявесьма полезными. И хотя углубленный поиск требует от пользователядополнительных интеллектуальных усилий, большую часть реальной работывполне можно автоматизировать. Например, извлечь элементы, связанные сименем собственным, затем элементы, связанные с географическимместоположением, либо сформулировать предположение о правильномнаписании, а затем применить предметно-ориентированную таксономию,которая сведет триаду «персона, организация, событие» в обзор подборокиз уже выбранных документов. В самом запросе можно управлять глубинойпоиска. Если, к примеру, вам нужен отчет о продажах за 2006 год, то егобесполезно искать среди документов, опубликованных в 2005 году или вболее ранние годы. Правда, выяснение даты публикации для документов,накапливаемых в системе Google, может оказаться неразрешимой проблемой,но для корпоративных систем ее решение вполне реально.

Нетекстовые предположения.Современные поисковики способны ссылки на мультимедийные элементы,относящиеся к поисковому запросу, выдавать на экран в виде небольшихграфических изображений. Так, поисковый запрос, содержащий фамилию,подобную фамилии поп-звезды, может в списке ответов приводить картинкиобложек записанных хитов, временную диаграмму ее рейтинга на рынке ит.п., в зависимости от условий поиска.

Агрегирование фактов. В примере:

George Herbert Walker Bush was the 41th President of the USA
George W. Bush was the 43th President of the United States
US landscaping revenues are approximately $40 billion annually

системапытается свести воедино разрозненные факты, относящиеся к запросу:‘President George Bush’. Может показаться, что это проблема дляискусственного интеллекта, но все проще. Вслед за извлечением элементови предложений-существительных идет извлечение фактов, и еслидостаточное количество статей упоминает некий факт и определенныйпроцент может быть нормализован до обобщенной формы, то система строитсвидетельства в поддержку этого факта. В примере система разбила‘George H. W. Bush’, ‘George W. Bush’ и ‘United states’ по словарнымстатьям, а 41st president и 43rd president были распознаны по ним, какпредложения-существительные. Это не анализ структуры предложений дляпоследующего сбора фактов — просто система смогла просмотреть тысячидокументов, содержащих почти идентичную информацию; некотороеколичество документов, возможно, даже содержали одинаковый набор слов,а другие документы были использованы для статистического подтвержденияприведенных в них свидетельств. Прекрасно, когда так все удачнополучается, однако это происходит далеко не всегда, особенно длясложных запросов.

Один из подходов, позволяющихтакие фокусы, не прибегая к услугам искусственного интеллекта,заключается в том, что разработчики используют простой морфологическийанализ предложений двумя способами. Вместо отдельных слов они ищутмногословные фразы, используя различные приемы; эти словосочетаниямогут быть непосредственно подвергнуты статистическому анализу. В то жевремя, они разбивают документы на мелкие части, анализируястатистические корреляции на уровне параграфа и предложения.

Будутли востребованы подобные усовершенствования — решать рынку, но, скореевсего, некоторые технологии извлечения фактов наверняка найдут своихпочитателей и среди пользователей корпоративных систем.

Визуализация и определение эмоциональной окраски.С помощью красочных демонстраций разработчики преподносят автоматическигенерируемые графики, показывающие тысячи отобранных в результатевыполнения запроса документов. Эта технология использует статистическиеметоды анализа извлеченных слов, фраз и других элементов, аналогичныеуже рассмотренным методам. Первый прием — визуализация с помощьюсемантической карты на основе контекстного индекса — облако связанныхмежду собой слов (рис. 2, вверху). Перенос курсора с одного слова надругое, отражая ваше предпочтение, изменяет картинку и по-новомуранжирует список выбранных документов. Полезно ли это и работает ливообще? Станет ли привычным ориентироваться в результатах поиска стольэкзотичным способом? Нет конкретного ответа, однако нам уже не раздемонстрировали множество приемов, которые не находили применения напрактике. Этот скептицизм можно развеять только тогда, когдапрограммисты станут работать теснейшим образом с потенциальнымипользователями. Реальная конкуренция в корпоративном пространствеспособна стимулировать много полезных начинаний.

Рис. 2. Визуализация результатов поиска

Анализэмоциональной окраски высказываний в отношении производителей, событий,фактов — еще один пример визуализации на основе статистическогопростейшего анализа контекста результатов поиска. Способность некоторыхсистем распознавать эпитеты, которыми сопровождаются обсуждениясобытий, и визуализация этой статистики — одно из таких начинаний (рис.2, внизу). Так, оттенками красного цвета окрашены документы, в которыхпреобладают отрицательные эпитеты.

***

Ситуацияможет показаться безысходной, однако следует сохранять оптимизм —неизвестны причины роста объемов информации, поэтому у нас нет рычаговвоздействия на него. Возможно, со временем все как-то стабилизируетсялибо мы дождемся появления масштабируемых коммерческих квантовыхвычислителей и алгоритмов, которые создадут принципиально иныемеханизмы поиска в океане информации.

Вадим Ефремов (VEfremov@hetnet.ru) — советник генерального директора компании «ГЕТНЕТ Консалтинг» (Москва).

Постоянный URL статьи: http://www.osp.ru/os/2007/08/4493214/



Открытые системы №8, 2007.