Технологии анализа и поиска текстовой информации

Развитие индустрии систем электронного документооборота требует новых средств обработки полнотекстовой информации, основанных на лингвистическом анализе текста и включающих элементы искусственного интеллекта. Доступные сегодня вычислительные мощности позволяют применить широкий класс методов для обработки больших массивов документов, эффективно решая задачи поиска, классификации, кластерного анализа, выявления скрытых закономерностей и другие. Многолетний опыт построения информационно-поисковых систем, исследования в области искусственных нейронных сетей и компьютерной лингвистики послужили фундаментом для развития технологий обработки текста на естественном языке в компании “Гарант-Парк-Интернет”.

research.metric.ru

Тематический анализ текста формирует список ключевых понятий - тем документа, ранжированных по значимости. Позволяет производить поиск документов по интересующей теме, сравнивать документы по содержанию, исследовать тематический состав и временную динамику информационных потоков.

Анализ смысловых связей выявляет отношения между понятиями текста и формирует семантическую сеть на множестве документов. Позволяет исследовать семантическое окружение целевых объектов (персон, организаций, событий) в документах; выявлять подкрепления известных и неизвестных связей, расширять и уточнять поисковые запросы.

Автоматическое реферирование формирует общие и тематические рефераты документов в форме ключевых фраз, раскрывающих содержание текста.

Автоматическая рубрикация позволяет создавать иерархические рубрикаторы на основании анализа коллекций документов и классифицировать документы по рубрикам.

Нечеткий поиск позволяет расширять запрос близкими по написанию словами из коллекции документов, по которым ведется поиск. Способен быстро найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками нескольких символов.

Лингвистическое обеспечение включает в себя средства морфологического и синтаксического анализа, а также тезаурус общей лексики русского языка.

Технологии реализованы в пакете программных модулей, готовых для встраивания в информационно-поисковые системы. Основное внедрение и апробация технологий уже состоялись в нашей системе Russian Context Optimizer(TM) для СУБД Oracle®.

Russian Context Optimizer(TM) разрабатывается компанией "Гарант-Парк-Интернет" с 1997 г. В течение последних лет продукт непрерывно совершенствовался, расширялись функциональные возможности, повышались надежность и производительность программного обеспечения. RCO (TM) позволяет значительно расширить возможности Oracle® interMedia в русскоязычных БД. RCO (TM) предназначается для системных интеграторов и разработчиков приложений, использующих возможности информационного поиска, а также отделов автоматизации производства среднего и крупного бизнеса. В настоящее время существуют коммерческие версии этого продукта для Windows и различных UNIX платформ (SUN Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX).

Основные возможности Russian Context Optimizer(TM):

    1. поиск документов с учетом всех грамматических форм слов запроса;

    2. поиск слов, близких по написанию - нечеткий поиск;

    3. расширение запроса синонимами, более общими и более частными понятиями на основе тезауруса русского языка;

    4. поиск документов по ключевым темам, которые автоматически выделяются при индексировании;

    5. выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос близкими темами;

    6. составление общих и тематических рефератов документов;

    7. автоматическое построение иерархических рубрикаторов и классификация документов по рубрикам;

    8. обеспечение полноценной работы с БД, содержащими тексты на нескольких языках;

    9. поддержка всех кодовых страниц русского языка.

RCO основан на открытых стандартах и спецификациях Oracle®. В RCO предусмотрена возможность интеграции с существующими приложениями, использующими Oracle® interMedia, что позволяет улучшить их быстродействие и расширить функциональные возможности.

Russian Context Optimizer(TM) является проверенным и надежным продуктом, который позволяет существенно расширить возможности Oracle® при работе с документами на русском языке. Russian Context Optimizer(TM) задействует такие технологии, как лексико-грамматический и статистический анализ текста, алгоритмы кластерного анализа и автоматической классификации данных, нечеткий поиск и др. Особое внимание уделяется качеству создаваемых продуктов. К этому обязывает как положение компании, в число клиентов которой входят Государственная Дума РФ, Министерство Финансов РФ, ФСНП РФ, изначально “избалованные” высоким уровнем услуг, так и конкретная ситуация - Oracle® высоко держит планку качества, и ориентированность решения на корпоративный рынок больших ИС обязывает выпускать качественный продукт.

metric, marketing@metric.ru
опубликовано 24 мая 2002 года