remake! /
Технологии анализа и поиска текстовой информации
Развитие индустрии систем электронного документооборота требует новых средств обработки полнотекстовой информации, основанных на лингвистическом анализе текста и включающих элементы искусственного интеллекта. Доступные сегодня вычислительные мощности позволяют применить широкий класс методов для обработки больших массивов документов, эффективно решая задачи поиска, классификации, кластерного анализа, выявления скрытых закономерностей и другие. Многолетний опыт построения информационно-поисковых систем, исследования в области искусственных нейронных сетей и компьютерной лингвистики послужили фундаментом для развития технологий обработки текста на естественном языке в компании “Гарант-Парк-Интернет”.
Анализ смысловых связей выявляет отношения между понятиями текста и формирует семантическую сеть на множестве документов. Позволяет исследовать семантическое окружение целевых объектов (персон, организаций, событий) в документах; выявлять подкрепления известных и неизвестных связей, расширять и уточнять поисковые запросы.
Автоматическое реферирование формирует общие и тематические рефераты документов в форме ключевых фраз, раскрывающих содержание текста.
Автоматическая рубрикация позволяет создавать иерархические рубрикаторы на основании анализа коллекций документов и классифицировать документы по рубрикам.
Нечеткий поиск позволяет расширять запрос близкими по написанию словами из коллекции документов, по которым ведется поиск. Способен быстро найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками нескольких символов.
Лингвистическое обеспечение включает в себя средства морфологического и синтаксического анализа, а также тезаурус общей лексики русского языка.
Технологии реализованы в пакете программных модулей, готовых для встраивания в информационно-поисковые системы. Основное внедрение и апробация технологий уже состоялись в нашей системе Russian Context Optimizer(TM) для СУБД Oracle®.
Russian Context Optimizer(TM) разрабатывается компанией "Гарант-Парк-Интернет" с 1997 г. В течение последних лет продукт непрерывно совершенствовался, расширялись функциональные возможности, повышались надежность и производительность программного обеспечения. RCO (TM) позволяет значительно расширить возможности Oracle® interMedia в русскоязычных БД. RCO (TM) предназначается для системных интеграторов и разработчиков приложений, использующих возможности информационного поиска, а также отделов автоматизации производства среднего и крупного бизнеса. В настоящее время существуют коммерческие версии этого продукта для Windows и различных UNIX платформ (SUN Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX).
Основные возможности Russian Context Optimizer(TM):
- 1. поиск документов с учетом всех грамматических форм слов запроса;
- 2. поиск слов, близких по написанию - нечеткий поиск;
- 3. расширение запроса синонимами, более общими и более частными понятиями на основе тезауруса русского языка;
- 4. поиск документов по ключевым темам, которые автоматически выделяются при индексировании;
- 5. выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос близкими темами;
- 6. составление общих и тематических рефератов документов;
- 7. автоматическое построение иерархических рубрикаторов и классификация документов по рубрикам;
- 8. обеспечение полноценной работы с БД, содержащими тексты на нескольких языках;
- 9. поддержка всех кодовых страниц русского языка.
RCO основан на открытых стандартах и спецификациях Oracle®. В RCO предусмотрена возможность интеграции с существующими приложениями, использующими Oracle® interMedia, что позволяет улучшить их быстродействие и расширить функциональные возможности.
Russian Context Optimizer(TM) является проверенным и надежным продуктом, который позволяет существенно расширить возможности Oracle® при работе с документами на русском языке. Russian Context Optimizer(TM) задействует такие технологии, как лексико-грамматический и статистический анализ текста, алгоритмы кластерного анализа и автоматической классификации данных, нечеткий поиск и др. Особое внимание уделяется качеству создаваемых продуктов. К этому обязывает как положение компании, в число клиентов которой входят Государственная Дума РФ, Министерство Финансов РФ, ФСНП РФ, изначально “избалованные” высоким уровнем услуг, так и конкретная ситуация - Oracle® высоко держит планку качества, и ориентированность решения на корпоративный рынок больших ИС обязывает выпускать качественный продукт.
опубликовано 24 мая 2002 года