Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске – с точки зрения содержания. (с) Википедия
Я тебя нашел на свою беду. (с) Т. Темиров
Нововведение Google под названием The Knowledge Graph уже назвали одним из лучших за последние несколько месяцев. На разработку сего детища у компании ушло примерно два года. Повторяться не будем, предлагаем (наверняка не впервые) посмотреть видео и насладиться позитивом и вселенским счастьем.
Что нового?
На некоторые из запросов пользователя Google умеет давать «умные» ответы уже сейчас. На странице с результатами выдачи могут появляться котировки акций, прогноз погоды, информация об авиарейсах или заголовки новостей, в которых упоминаются искомые объект или лицо. Помимо этого, Google умеет осуществлять перевод величин, заменять калькулятор, конвертировать валюту и строить графики функций.
Перед началом основной работы по данному проекту в 2010 году Google приобрел компанию Metaweb Technologies, которая создала базу данных Freebase. На тот момент база насчитывала около 12 млн. сущностей (данные о компаниях, различных объектах, фильмах, телешоу, актерах, книгах и т.д.). Все это время сотрудники компании (около 50 человек) вели работы по расширению и улучшению этой базы данных. На данный момент база содержит около 500 миллионов объектов и около трех с половиной миллиардов связей между ними. Предполагается, что Google будет также использовать MQL (Metaweb Query Language) – API для создания программируемых запросов к Freebase.
Ранее в анонсах сообщалось, что блок с The Knowledge Graph будет размещаться под строкой поиска и над выдачей. Это вызывало определенную критику со стороны пользователей, поскольку таким образом результаты семантического поиска визуально воспринимались бы как более важные, а первые позиции поисковой выдачи потеряли бы лидирующие позиции на странице. Однако на данный момент мы видим, что этот блок будет размещаться справа от поисковой выдачи. Пока не сообщается, можно ли будет включать и выключать показ блока The Knowledge Graph.
Google подчеркивает, что персонализация поиска в сочетании с семантическим поиском дадут новый вариант релевантности выдачи. Если человек хочет узнать длину реки Миссисипи, ему больше не надо самому рыскать по ссылкам и вчитываться в статью на Википедии, чтобы узнать конкретный факт.
Правда, совершенно не факт, что мы, уже привыкшие разговаривать с поисковиком на определенном языке, поменяем свою стратегию. Мы думаем фразами «купить гарнитуру "овраг" в минске», а более или менее знакомые с поисковиками знают, что «гарнитура "овраг" отзывы» или «гарнитура "овраг" форум» лучше, чем «какая гарнитура самая лучшая» или «где купить лучшую гарнитуру», поскольку два последних запроса с большой вероятностью выдадут рекламные тексты. Семантический же поиск в перспективе сможет сравнивать характеристики техники и на этой основе выдавать пользователю ответ на вопрос.
На данный момент презентационный ролик делает акцент именно на поиске по личностям и фактам. Это область, в которой проще применять семантический поиск, чем в остальных, поскольку она наименее абстрактна. Как подчеркивают представители Google, новый проект – это на данный момент не столько анализ текста, сколько показ релевантной информации. Следующим шагом в улучшении поиска будет корректное удовлетворение сложных запросов на нормальном человеческом языке, например: «Где я могу купить горячие пирожки с грибами с доставкой в Минске в полночь».
Однако неизвестно, какую политику применит Google в случаях, когда ответы будут различаться в зависимости от местоположения пользователя, языка, на котором он говорит, а также времени года, например. Также неясно, будет ли поисковик уточнять (и если да, то как) выдачу для вопросов, на которые не может быть однозначного ответа.
Обычной поисковой строки становится мало для работы со сложными, логически структурированными запросами. Как и Wolfram Alpha, Google предложит пользователю уточнить область поиска в специальном блоке. К примеру, если набрать запрос «Da Vinci», поисковик попросит вас уточнить, имели ли вы в виду художника и изобретателя, одноименную компанию или музыкальную группу (и даже не спросит, действительно ли вы работаете на ее пиар-поддержку), а после обновит страницу выдачи согласно выбранному варианту.
Технологии
Что мы имеем на рынке семантического поиска сейчас? Безусловно, Wolfram Alpha, запущенный в 2009 году. Данные, предоставляемые этой системой, используются как в Siri, так и в поисковике Bing (последний, к примеру, имеет полезную функцию – рассчитывает сложные математические функции). Кстати говоря, сам Wolfram Alpha не является прямым конкурентом Google, поскольку не является поисковиком и ссылки на релевантные документы не возвращает, а лишь вычисляет ответ по собственной базе знаний. Кроме того, этот сервис понимает только английский язык. Какие языки на первом этапе будет понимать The Knowledge Graph, пока не сообщается.
Далее, у ABBYY есть алгоритм анализа ABBYY Compreno, построенный на универсальном семантическом дереве с применением полного синтаксического анализа. Суть этого алгоритма в том, что люди, несмотря на различия языков, используют похожие семантические объекты. Например, все люди спят, едят, большинство людей ходит на работу, тратит деньги, эти понятия есть почти во всех языках.
Однако для более точного поиска системе все равно нужно «знать» языки. И для каждого из них в итоге алгоритм семантической разработки будет свой.
А вот Ask.com выделяет те куски текста, которые содержат прямой ответ на заданный вопрос. Для этого используется три основные семантические технологии:
- вывод прямого ответа из базы данных (direct answer from database,
- DADS);
- вывод прямого ответа из результатов поиска (direct answer from search,
- DAFS);
- поисковый робот AnswerFarm, который индексирует пары «вопрос–ответ» (Q&A) из веб-сети. Найденные в интернете пары Q&A сохраняются в базе данных для выдачи ответа на вопросы пользователей.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.