Семантическая поисковая система AskNet.ru  AskNet Продукты Сервисы Технологии Аналитика Вопрос-ответEnglish
Найдется  соответствующее

Технологии

Задавайте вопросы на естественном языке

 

 

Например: 

Задачи поиска
Алгоритмы поиска
Принципы работы
Лингво анализ
Лингво процессор
Морфология
Синтаксис
Семантика
Словари
Лингвист
Типы вопросов

 

Технологии поиска AskNet

 

Технология реализуется на основе применения полного лингвистического анализа текстов (морфология, синтаксис, семантика),  использования онтологий, баз знаний и методов логического вывода.

Принципиальные отличия технологии самообучающихся аналитических вопросно-ответных систем от конкурентов:

  • учет семантического содержания запроса пользователя и проиндексированных текстов при поиске;

  • обобщение текстовой информации в процессе поиска на основе анализа и логического вывода;

  • аналитический поиск характеристик и связей, автоматически выявляемых из запроса пользователя семантических объектов.

Сравнительный анализ технологий поиска

Детальный анализ технологии семантического вопросно - ответного поиска AskNet и отличия от традиционных технологий поиска по ключевым словам (на примере сравнения с технологией поиска Google) приведен в таблице.

Технология полного лингвистического анализа текстовой информации позволяет реализовать принципиально новые функциональные возможности информационно-аналитических систем. Отличия от технологий, используемых в существующих информационно-аналитических системах (на примере технологии Ontos) представлены в таблице.

 

 

Результаты тестирования поисковых систем

Тестирование систем AskNet и Google проводилось на одинаковых вопросах. Для тестирования использовались системы AskNet Global Search, AskNet Site, Google, Google Desktop. Результаты тестирования приведены в таблицах:

  •  результаты тестирования систем  AskNet Global Search и Google по вопросам на русском и английском языках (тестовая база - Интернет; для обеспечения корректности тестирования системы AskNet и Google использовали для поиска идентичные базы проиндексированных сайтов);

  •  результаты тестирования систем  AskNet Site и Google Desktop по вопросам на английском языке (тестовая база - тексты конференции TREC; ввиду крайне неудовлетворительных результатов тестирования системы Google при поиске ответов на вопросы, для нее тестирование было проведено также в режиме поиска не по вопросам, а по ключевым словам, которые выбирали пользователи из вопросительного предложения запроса).

  • результаты тестирования систем AskNet и Convera по вопросам на русском и английском языках.

Преимущества разработанной и реализованной технологии AskNet подтверждаются результатами тестирования системы AskNet на дорожках конференции TREC и семинара РОМИП.

 

Особенности технологий поиска AskNet

  • Полнотекстовый семантический поиск (семантический, вопросно-ответный, аналитический), самообучение системы

  • ¨Полный лингвистический анализ текстов и запросов (морфология, синтаксис, семантика).   Словари: морфологические, семантические (онтологии), комбинаторные, синонимические.   Конструкции: графематического, синтаксического, семантического разбора.

  • ¨Семантический полнотекстовый индекс содержит лексемы, синтаксические и семантические характеристики слов

  • ¨Семантическое упорядочивание результатов поиска с учетом степени их семантической, синтаксической и морфологической близости запросу пользователя

  • Лингвистические виды поиска:

    • Точный семантический ответ, соответствующий смыслу запроса пользователя

    • Семантический поиск без учета формы глагола

    • Семантический поиск по ключевым словам (например, поиск различного написания цифр: "один"  -   "one"   -    1  -   I)

    • Поиск с учетом синонимов и родственных слов

    • Поиск с проведением логического вывода

    • Аналитический поиск характеристик объектов и их связей

     

Технологическая модель поиска

Поисковые запросы задаются пользователем на естественном языке. Поиск проводится по неструктурированной текстовой информации. Результатом поиска являются: ответы на вопросы пользователей; ссылки на документы, содержащие семантические объекты запроса; характеристики и связи объектов аналитического поиска. При формировании результатов поиска система может проводить обобщение различной текстовой информации, а также проводить самообучение за счет сохранения проверенных данных, полученных в результатах ранее проведенных поисковых операций. Это позволит освободить ресурсы человека от выполнения рутинных операций по поиску, анализу и обобщению разнородной неструктурированной текстовой информации.

Поисковые системы AskNet реализуют синтетическую технологию, базирующуюся на полном  лингвистическом и статистическом анализе текстовой информации.

Технология вопросно-ответного поиска в системе AskNet основана на проведении  полного цикла лингвистического анализа индексируемых текстов и запроса пользователя, а также на ранжировании результатов поиска по степени синтактико-семантического соответствия найденных предложений проиндексированных текстов запросу пользователя.

Методической основой  вопросно-ответного поиска является реализация следующих этапов:

    • формирование поискового шаблона и составление списка  группировок множества вхождений слов запроса в тексты документов;
    • оценка синтактико-семантического соответствия вопроса пользователя предложениям текстов из списка, составленного на первом этапе.
Технология аналитического поиска основана на выявлении в текстах скрытых закономерностей на основе автоматического формирования семантической сети объектов анализа и учитываемых их связей. В отличие от существующих технологий используется методы полного лингвистического анализа неформализованной информации, разрешения омонимии слов, анафорической связи, выявления латентных связей на основе анализа структуры текста.

Для выявления достоверной информации при вопросно-ответном и аналитическом поиске  используются базы знаний, содержащие данные  о допустимых связях семантических объектов и о типах этих связей.

Технология самообучения основана на автоматическом формировании морфологических, синтаксических и семантических  характеристик для неизвестных системе слов. Самообучение системы проводится на основе указания системе достоверной текстовой  информации.

 

Прикладные применения технологии поиска

  • ¨Интернет портал -  Интернет-сервис  автоматического поиска ответов на вопросы и поиска по ключевым словам (настраиваемый интернет портал - "индивидуальная страница входа", аналитические материалы; поисковые и аналитические сервисы, контекстная реклама).

  • ¨Коробочные версии программного обеспечения (корпоративные, сайтовые, персональные), комплекты тематических словарей для адаптации под различные "вертикали" рынка, независимые разработки с использованием SDK компании Аскнет

  • ¨Мобильные применения (SMS, wap- версии)

  •  - короткий запрос и точный ответ для мобильных устройств с ограниченными возможностями по трафику и отображению информации.
  • ¨Видео и мультимедийный контент - интеграция поиска с распознаванием речи при вводе запроса, поиск по видео, мультимедийной и текстовой информации.

  • ¨Перевод текстов (SDK) - точный перевод текстов на основе полного лингвистического анализа и выявления семантики; системы перевода текстов в реальном времени (скорость лингвистического анализа).

  • ¨Интерактивное (online) обучение (SDK) - вопросно-ответные и аналитические системы проверки знаний обучающихся.

 

Поиск по энциклопедиям

Поиск по Википедии (реализован) и по другим on-line интернет-энциклопедиям. Поиск по энциклопедиям проводится по всему тексту статей. Это позволяет находить ответы на вопросы пользователей внутри статей. Все другие поисковые системы могут вывести только саму статью, да и то в случае, если запрос пользователя достаточно короткий и совпадает с названием энциклопедической статьи.

 

Специализированный  поиск

Поиск по текстам тематически однородной специализированной информации.

 

  Участник проекта Сколково