Семантическая поисковая система AskNet.ru  AskNet Продукты Сервисы Технологии Аналитика Вопрос-ответEnglish
Найдется  соответствующее

Морфология

Задавайте вопросы на естественном языке

 

 

Например: 

 

Модули машинной морфологии AskNet Morphology

 

Назначение машинной морфологии

Модули машинной морфологии AskNet Morphology служат для приведения слов русского и английского языка к нормальной форме (именительным падежам, инфинитивам), получения всех форм анализируемых слов, а также для синтеза лексем незнакомых слов.

Машинная морфология используется при индексировании текстов, благодаря чему различные формы слова воспринимаются как одно и то же слово. Это также дает возможность формировать поисковый запрос на естественном языке, а также обеспечить полноту поиска за счет отбора всех допустимых вариантов изменения искомых слов.

Машинный синтез лексем незнакомых слов с определением их морфологических характеристик позволяет автоматически адаптировать поисковую систему AskNet  к любой прикладной области. Адаптация проводится на основе автоматического дополнения словарной базы лингвистического процессора AskNet  в процессе индексации текстов.

 

Состав модулей машинной морфологии

Модули машинной морфологии AskNet Morphology включают в себя:

  • Модуль управления словарями;

  • Модуль конвертации лингвистических характеристик;

  • Модуль загрузки словарей;

  • Морфологические и комбинаторные базы.

Принцип работы

Модули словарной морфологии AskNet  Morphology принимают на вход словоформу, определяют все возможные окончания, проверяют, есть ли полученные начальные части (основы слов) в словаре. Если есть, проверяют, допустимы ли подобные окончания, и какие грамматические признаки они определяют. Если есть допустимые варианты, модули возвращают морфологические индексы основ слов, формой которых может являться данная словоформа. Данный алгоритм реализует словарную морфологию.

Если допустимых вариантов нет, то проводится синтез лексем (определение всех морфоформ для незнакомых слов). Определение наиболее вероятной гипотезы морфообразования проводится по основе и окончанию анализируемого слова. При этом выполняется поиск наиболее близкого по написанию известного слова. Это позволяет достичь высокой степени достоверности автоматического синтеза лексем и определения морфологических характеристик неизвестных слов. При синтезе лексем модули отсекают возможные окончания слов и определяют квазиоснову "новых" слов. Данный алгоритм реализует бессловарную морфологию.

При индексации и при поиске производится одна и та же операция отсечения, что позволяет отождествлять индексированные слова. При поиске модули обнаруживают все возможные формы искомых слов и их родственных слов.

 

Функции машинной морфологии

Нормализация: получение по любой форме слова морфологического индекса (идентификатора - индекса, одинакового для всех словоформ слова, используемого как для индексации, так и для поиска.

Анализ: получение по словоформе всех её характеристик (род, число, падеж, время, лицо и пр.) и всех возможных омонимов.

Синтез слов: получение любой формы слова по его идентификатору и заданным грамматическим характеристикам (например, нормальной формы или формы родительного падежа множественного числа и т.п.).

Синтез новых слов: определение всех морфоформ для незнакомых слов.

 

Технические характеристики

Модули машинной морфологии представляют собой библиотеки в формате DLL для платформы Win32, с отдельным файлом морфологического словаря и документацией.

Интерфейс обращения: API (DLL).

Базовые морфологические словари русского и английского языков содержат наиболее часто употребимые слова, а также имена собственные. Словари имен собственных содержит личные имена, фамилии, отчества, названия стран, континентов, городов, морей, рек.

Словари сокращений русского и английского языков содержат сокращения как отдельных слов, так и словосочетаний. Структура словарей разработана таким образом, что позволяет проводить разрешение сокращений, то есть соотнесение сокращения с полным словом.

Общий объём модулей AskNet Morphology составляет 42 Мб, включая словари для русского языка - 25 Мб и для английского - 15 Мб.

Скорость морфологического анализа (преобразования словоформ в идентификаторы) - около 40 000 слов/сек (для Pentium-4).

Слова, которые встречаются в тексте, но не содержатся в морфологической базе, заносятся в отдельный словарь новых слов. Словарь создается при создании индексной базы и наполняется в процессе индексации, его размер определяется количеством незнакомых слов в индексируемом тексте.

Скорость синтеза лексем неизвестных слов - около 10 000 слов/сек (для Pentium-4 с процессором 3 ГГц).

Скорость морфологического анализа (преобразования словоформ в идентификаторы) - около 200 000 слов/сек для известных слов и около 60 000 слов/сек для текстов, содержащих известные и новые слова.

Слова, которые встречаются в тексте, но не содержатся в морфологической базе, заносятся в отдельный словарь новых слов. Словарь создается при создании индексной базы и наполняется в процессе индексации, его размер определяется количеством незнакомых слов в индексируемом тексте.

Скорость синтеза лексем неизвестных слов (генерации гипотез лексем, проверки гипотез по подобной основе слов и определения наиболее вероятной лексемы) - около 2 500 слов/сек (для Pentium-4 с процессором 3 ГГц).

 

Контакты:   125009, г. Москва, Брюсов пер. 2/14 стр.5, тел.+7 (499) 7028224,    

                        e-mail:  info@asknet.ru           © 2007-2016 "ПОЛИГЛОТ", ООО "АСКНЕТ"

  Участник проекта Сколково