Технологии
поиска AskNet
Технология реализуется на основе применения полного лингвистического анализа
текстов (морфология, синтаксис, семантика), использования онтологий, баз знаний
и методов логического вывода.
Принципиальные отличия технологии самообучающихся аналитических
вопросно-ответных систем от конкурентов:
-
учет семантического
содержания запроса пользователя и проиндексированных текстов при поиске;
-
обобщение текстовой
информации в процессе поиска на основе анализа и логического вывода;
-
аналитический поиск
характеристик и связей, автоматически выявляемых из запроса пользователя
семантических объектов.
Сравнительный анализ технологий
поиска
Детальный анализ технологии
семантического вопросно - ответного поиска AskNet и отличия от
традиционных технологий поиска по ключевым словам (на примере сравнения с
технологией поиска Google) приведен в
таблице.
Технология полного
лингвистического анализа текстовой информации позволяет реализовать
принципиально новые функциональные возможности информационно-аналитических
систем. Отличия от технологий, используемых в существующих
информационно-аналитических системах (на примере технологии Ontos)
представлены в таблице.
Результаты тестирования поисковых систем
Тестирование систем AskNet и Google проводилось на одинаковых
вопросах. Для тестирования использовались системы AskNet Global
Search, AskNet Site, Google, Google Desktop. Результаты тестирования
приведены в таблицах:
Преимущества разработанной
и реализованной технологии
AskNet подтверждаются
результатами тестирования системы AskNet
на дорожках конференции
TREC и семинара
РОМИП.
Особенности технологий
поиска
AskNet
-
Полнотекстовый
семантический поиск (семантический,
вопросно-ответный, аналитический), самообучение системы
-
¨Полный лингвистический анализ текстов и запросов
(морфология, синтаксис, семантика).
Словари: морфологические, семантические (онтологии),
комбинаторные, синонимические. Конструкции: графематического, синтаксического, семантического
разбора. -
¨Семантический полнотекстовый индекс содержит лексемы,
синтаксические и семантические характеристики слов -
¨Семантическое упорядочивание результатов поиска
с
учетом степени их семантической, синтаксической и морфологической
близости запросу пользователя
-
Лингвистические виды поиска:
-
Точный семантический ответ, соответствующий смыслу запроса
пользователя
-
Семантический поиск без учета формы глагола
-
Семантический поиск по ключевым словам (например,
поиск различного написания цифр: "один" -
"one"
-
1
- I)
-
Поиск с учетом синонимов и родственных слов
-
Поиск с проведением логического вывода
-
Аналитический поиск характеристик объектов и их связей
Технологическая модель
поиска
Поисковые запросы задаются пользователем на естественном языке. Поиск
проводится по неструктурированной текстовой информации. Результатом поиска
являются: ответы на вопросы пользователей; ссылки на документы, содержащие
семантические объекты запроса; характеристики и связи объектов
аналитического поиска. При формировании результатов поиска система может
проводить обобщение различной текстовой информации, а также проводить
самообучение за счет сохранения проверенных данных, полученных в результатах
ранее проведенных поисковых операций. Это позволит освободить ресурсы
человека от выполнения рутинных операций по поиску, анализу и обобщению
разнородной неструктурированной текстовой информации.
Поисковые системы
AskNet реализуют синтетическую технологию,
базирующуюся на полном
лингвистическом и статистическом анализе текстовой информации.
Технология вопросно-ответного поиска в системе AskNet
основана на проведении полного цикла лингвистического анализа индексируемых
текстов и запроса пользователя, а также на ранжировании результатов поиска
по степени синтактико-семантического соответствия найденных предложений
проиндексированных текстов запросу пользователя.
Методической основой вопросно-ответного поиска является реализация
следующих этапов:
- формирование поискового шаблона и составление списка группировок
множества вхождений слов запроса в тексты документов;
- оценка синтактико-семантического соответствия вопроса пользователя
предложениям текстов из списка, составленного на первом этапе.
Технология аналитического поиска основана на выявлении в текстах скрытых
закономерностей на основе автоматического формирования семантической сети
объектов анализа и учитываемых их связей. В отличие от существующих
технологий используется методы полного лингвистического анализа
неформализованной информации, разрешения омонимии слов, анафорической связи,
выявления латентных связей на основе анализа структуры текста.
Для выявления достоверной информации при вопросно-ответном и аналитическом
поиске используются базы знаний, содержащие данные о допустимых связях
семантических объектов и о типах этих связей.
Технология самообучения основана на автоматическом формировании
морфологических, синтаксических и семантических характеристик для
неизвестных системе слов. Самообучение системы проводится на основе указания
системе достоверной текстовой информации.
Прикладные применения технологии
поиска
-
¨Интернет
портал - Интернет-сервис автоматического поиска
ответов на вопросы и поиска по ключевым словам (настраиваемый
интернет портал - "индивидуальная страница входа", аналитические
материалы; поисковые и аналитические сервисы, контекстная
реклама). -
¨Коробочные версии программного обеспечения
(корпоративные, сайтовые, персональные), комплекты тематических
словарей для адаптации под различные "вертикали" рынка,
независимые разработки с использованием SDK
компании Аскнет
-
¨Мобильные применения (SMS, wap-
версии)
- короткий запрос и точный ответ для мобильных устройств с
ограниченными возможностями по трафику и отображению информации.-
¨Видео и мультимедийный контент - интеграция поиска с распознаванием речи при вводе запроса,
поиск по видео, мультимедийной и текстовой информации .-
¨Перевод текстов (SDK)
- точный перевод текстов на основе полного лингвистического
анализа и выявления семантики; системы перевода текстов в реальном времени (скорость
лингвистического анализа) .-
¨Интерактивное (online)
обучение (SDK) - вопросно-ответные и аналитические системы проверки знаний
обучающихся .
Поиск по энциклопедиям
Поиск по Википедии
(реализован) и по другим on-line интернет-энциклопедиям.
Поиск по энциклопедиям проводится по всему тексту статей. Это позволяет находить
ответы на вопросы пользователей внутри статей. Все другие поисковые системы
могут вывести только саму статью, да и то в случае, если запрос пользователя
достаточно короткий и совпадает с названием энциклопедической статьи.
Специализированный поиск
Поиск по текстам
тематически однородной специализированной информации.
|