Семантическая поисковая система AskNet.ru  AskNet Продукты Сервисы Технологии Аналитика Вопрос-ответEnglish
Найдется  соответствующее

Лингво анализ

Задавайте вопросы на естественном языке

 

 

Например: 

 

Описание технологии лингвистического анализа AskNet

 

Процесс поиска текстовой информации включает в себя следующие этапы:

  1. формализация пользователем поискового запроса;

  2. предварительный отбор тестовых документов, содержащих формальные признаки наличия интересующей информации;

  3. анализ отобранных документов (лексический, морфологический, синтаксический, семантический);

  4. оценка соответствия смыслового содержания найденной информации требованиям поискового запроса.

Данные этапы выполняются в полном объеме человеком при неавтоматизированном поиске, а эффективность их реализации определяется интеллектуальными способностями человека. Все вышеперечисленные этапы могут быть автоматизированы на основе использования систем искусственного интеллекта и экспертных систем.

 

Лингвистический анализ AskNet.ru
 

Лексический анализ заключатся в разборе текстовой информации на отдельные абзацы, предложения, слова, определении национального языка изложения, типа предложения, выявлении типа лексических выражений (бранных, жаргонных слов) и т.д. Он не представляет существенной сложности для реализации.

Морфологический анализ сводится к автоматическому распознаванию частей речи каждого слова текста (каждому слову ставится в соответствие лексико-грамматический класс). Данная задача может быть выполнена для русского языка практически со стопроцентной точностью благодаря его развитой морфологии. В английском языке алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (синтаксическую часть речи), работает с точностью около 90 %, что обусловлено лексической многозначностью английского языка.

Синтаксический анализ заключатся в автоматическом выделении семантических элементов предложения - именных групп, терминологических целых, предикативных основ. Это позволяет повысить интеллектуальность процесса обработки тестовой информации на основе обеспечения работы с более обобщенными семантическими элементами.

Семантический анализ заключатся в определении информативности текстовой информации и выделении информационно-логической основы текста. Проведение автоматизированного семантического анализа текста предполагает решение задачи выявления и оценки смыслового содержания текста. Данная задача является трудно формализуемой вследствие необходимости создания совершенного аппарата экспертной оценки качества информации.
Реализация семантического анализа текстовой информации предполагает обязательное использование экспертных систем, систем искусственного интеллекта для выявления смыслового содержания информации. В настоящее время отсутствуют сложившиеся подходы к реализации задачи семантического анализа текстовой информации, что во многом обусловлено исключительной сложностью проблемы и недостаточно полной проработкой научного направления создания систем искусственного интеллекта. Поэтому существующие информационные технологии не обеспечивают эффективной реализации поисковых систем.

Это обусловливает низкую адекватность найденной по запросу пользователя информации, то есть возврат системой большого объема малоинформативных документов. Проблема усугубляется низкой скоростью получения документов из Интернета, необходимостью просмотра пользователем всех найденных документов и оценки их информационного содержания в неавтоматизированном режиме, а также наличием специально создаваемых (вредоносных) информационных технологий, препятствующих эффективной реализации в поисковых системах автоматической оценки содержания найденных документов.

Существуют два основных класса информационно-поисковых систем:

    1.  поисковые системы;

    2. поисковые каталоги.

 

Классификация поисковых систем

 

Виды поиска:

  • по ключевым словам;

  • с булевой логикой объединения слов;

  • по словосочетаниям;

  • с учетом расстояния между словами;

  • с учетом регистра;

  • по семантике (концептуальный);

  • по шаблону (подобию);

  • по полям документа.

Поисковые системы обеспечивают автоматическую индексацию большого количества документов, но не обладают развитыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевантность - степень адекватности результатов поиска запросу пользователя).

Поисковые каталоги обеспечивают большую релевантность ответа за счет предварительной обработки документов редакторами в ручном режиме. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндексированных документов, большими затратами средств на поддержание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления.

Методический аппарат "интеллектуального поиска" текстовой информации позволяет реализовать автоматизацию всех этапов лингвистического анализа (лексического, морфологического, синтаксического и семантического). Данная технология соединяет преимущества автоматического индексирования документов в поисковых системах с экспертной обработкой их содержания в системах искусственного интеллекта.

 

Лингвистический процессор поисковой системы AskNet.ru

 

Реализация указанных функциональных возможностей достигается за счет:

  1. углубленного лексического анализа текстовой информации, обеспечивающего подготовительную нормализацию обрабатываемого теста;

  2. уникальной структуры морфологического словаря, включающего все морфологические и семантические характеристики слов, а также слова - синонимы и тематически связанные слова;

  3. детального морфологического анализа, обеспечивающего определение частей речи с учетом семантики запроса пользователя и обрабатываемой текстовой информации;

  4. поиска текстовой информации по синонимам и тематически связанным словам;

  5. автоматизированного синтаксического анализа членов предложения и связей между ними;

  6. отбора текстовой информации на основе семантического анализа ее соответствия запросу пользователя;

  7. автоматической оценки релевантности предложений текстов запросу пользователя с обеспечением синтеза семантически полного ответа поисковой системы.

Новые качества интеллектуальной информационно-поисковой системы:

  1. Обработка запроса пользователя, представленного на естественном языке.

  2. Реализация диалога интеллектуальной поисковой системы с пользователем в ходе уточнения введенного им запроса и формирования ответа системы.

  3. Возможность автоматического перевода запроса пользователя с естественного языка на формализованные языки запросов существующих поисковых систем.

  4. Обеспечение поиска с учетом смыслового содержания многозначных слов.

  5. Реализация поиска с учетом синонимов и тематически связанных слов.

  6. Повышение релевантности результатов поиска запросу пользователя на основе учета семантики запроса и синтеза семантически полного ответа поисковой системы.

  7. Обеспечение автоматической интегральной оценки семантического смысла проиндексированной текстовой информации.

Рассмотренные выше особенности построения технологии "интеллектуального поиска" и достигаемые за счет них новые качества поисковой системы обеспечивают существенное снижение "информационного шума" и значительное повышение оперативности формирования ответа системы, адекватного запросу пользователя.

 

Структурная схема поисковой системы AskNet.ru

 

 

 

Контакты:   125009, г. Москва, Брюсов пер. 2/14 стр.5, тел.+7 (499) 7028224,    

                        e-mail:  info@asknet.ru           © 2007-2016 "ПОЛИГЛОТ", ООО "АСКНЕТ"

  Участник проекта Сколково