Главная

/Компании

каталог компаний

Создайте статью о своей компании или продукте в энциклопедии об информационных технологиях


Новая версия компьютерной морфологии русского языка RCO Morphology 2.0

Москва, 10.09.2003

Компания "Гарант-Парк-Интернет" объявляет о выходе новой версии программного продукта RCO Morphology 2.0, который предназначен для полного морфологического анализа слов русского языка. Значительной переработке подверглись словари и алгоритмы бессловарного анализа. Ключевой особенностью новой версии является высокое качество анализа таких категорий слов, как фамилии, наименования организаций, географические названия и другие, число которых в языке потенциально неисчислимо. Продукт поставляется в виде динамической библиотеки (dll) для Windows и предназначен для разработчиков информационно-поисковых и аналитических систем, требующих высокоточной обработки текста.

Компьютерная морфология необходима в прикладных системах, ведущих поиск и анализ информации на естественном языке. К числу основных функций, обеспечиваемых модулем морфологического анализа, относятся получение всех словоформ слова, постановка слова в заданную форму (например, словарную) и получение грамматических характеристик словоформы (рода, числа, падежа и других). Большая часть слов текста представляет почти неизменный фундамент языка и охватывается словарем объемом около 100 тысяч слов. Другая, более редкая, но не менее важная составляющая лексикона, постоянно пополняется и в принципе не имеет четко очерченных границ, прежде всего в части имен собственных и словообразовательных вариантов известных слов. Тем не менее, общие правила словообразования и словоизменения обладают регулярностью и изменяются относительно медленно, что позволяет в большинстве случаев достаточно точно идентифицировать не только модель словоизменения, но и лексико-семантический разряд неизвестного слова.

Модуль RCO Morphology 2.0 предоставляет три возможности: точный анализ известного слова по словарю объемом в 115 тысяч слов (более 3-х миллионов словоформ), высоко достоверный анализ неизвестного слова на основе комплекса правил, вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов.

Особенности новой версии продукта RCO Morphology 2.0 прокомментировал ведущий разработчик направления RCO, кандидат технических наук Александр Ермаков:

“Мы много лет развиваем анализатор русского языка, постоянно пополняя и уточняя морфологический словарь. Возможность вероятностного морфологического анализа неизвестных слов по аналогии с известными была реализована нами уже давно. Однако задачи тонкого семантического анализа текста, к решению которых мы подошли сегодня, сформировали повышенные требования к качеству компьютерной морфологии, которые превысили стандартную планку, де-факто признанную нормой для рядовых информационно-поисковых систем. Решение задач фактографического поиска, в которых ключевыми объектами являются неизвестные физические и юридические лица, а выявление отношений требует точного синтаксического анализа, потребовало от нас дополнительных усилий. Это привело, во-первых, к введению новых правил словообразования и словоизменения, позволяющих с высокой достоверностью анализировать несколько классов неизвестной лексики, а во-вторых к существенной переработке самого словаря словоизменения, прежде всего в глагольной части.
Дело в том, что грамматический словарь Зализняка семидесятых годов прообраз любой сегодняшней компьютерной морфологии не содержал точной информация о возвратных формах глаголов, вследствие чего во многие (если не во все) морфологические анализаторы вкрались систематические ошибки. Они приводят к отождествлению как совершенно различных слов, например “торговать” и “торговаться”, так и семантически близких, однако имеющих различные модели управления, например “целовать” и “целоваться”. Массово присутствуют и более сложные случаи, когда возвратные формы имеют как самостоятельное значение, так и выступают в значении пассива прямой формы (“исполняется”). При использовании в поисковых системах эти ошибки не очень заметны, так как основу запроса обычно составляют существительные, однако при семантическом анализе текста именно глаголы задают тот смысловой скелет, на котором выращивается все содержание. Нашими лингвистами была проведена систематизация значений возвратных глагольных форм и соответствующая корректировка словаря, а также много других изменений.
Теперь модуль RCO Morphology соответствует самым высоким требованиям и представляет прекрасный инструмент для обработки любого русскоязычного текста.
Тем не менее, при построении прикладных систем не следует забывать, что даже наличие сколь угодно “умного” морфологического анализатора не всегда позволяет точно идентифицировать отдельное слово из-за присутствия в тексте омонимии. Для этого зачастую необходим учет контекста, как в рамках предложения, так и всего текста в целом: учет формальных особенностей написания, синтаксической организации фразы, кореферентных имен и правил их введения в текст. Отдельную проблему представляет выделение многословных единиц, таких как полные наименования организаций, которые должны обрабатываться как единое целое. Для решения этих задач предназначен модуль предобработки текста RCO Pattern Extractor, использующий возможности RCO Morphology. Гибкие настройки новой морфологии позволяют эффективно использовать ее в составе предобработчика текста, порождая множество правдоподобных гипотез о словах при возможности омонимии, часть из которых подтверждается, а часть отвергается на верхних уровнях анализа. Управляемость это третье достоинство нашей морфологии.
Опыт построения морфологического анализатора и его применения к анализу текста мы планируем осветить в ближайших публикациях на эту тему”.

На сайте http://www.rco.ru можно получить подробную информацию о модулях RCO Morphology и RCO Pattern Extractor, а также о прочих разработках компании в рамках направления RCO.

ИНФОРМАЦИЯ О КОМПАНИИ «ГАРАНТ-ПАРК-ИНТЕРНЕТ»

С момента образования в 1995 году компания является одним из лидеров на рынке предоставления профессиональных интернет-услуг.

Одним из направлений в компании является разработка средств полнотекстового поиска и анализа неструктурированной информации RCO. Под этой маркой представлена линейка продуктов для поиска и анализа текстов для Oracle и Microsoft, а также поисковая машина, созданная в научно-исследовательской лаборатории RCO Research Group.

Контакт:
Печников Александр,
руководитель департамента маркетинга и PR компании «Гарант-Парк-Интернет»
тел.: +7 (095) 930-8958, 930-8959, факс: +7 (095) 930-8814
e-mail: marketing@metric.ru
URL: http://www.metric.ru/, http://www.parking.ru/, http://www.optimizer.ru/, http://www.rco.ru/

АРХИВ ПРЕСС-РЕЛИЗОВ

РЕКОМЕНДУЕМЫЕ МЕРОПРИЯТИЯ

11 февраля | Москва | Круглый стол

Системы хранения данных 2010

18февраля | online | Семинар

Управление бизнес-процессами в БТА Банке

18 февраля | Москва | Круглый стол

SaaS: расширение сервиса

24 февраля | Москва | Семинар

Ask Tom in Moscow. Hear your answers loud and clear!

24 - 26 февраля | Красноярск | выставка

ПТА-Сибирь 2010

25 февраля | Москва | Круглый стол

ITSM и эффективность бизнеса

26февраля | Москва | Конференция

Microsoft Dynamics NAV Forum 2010

4 марта | Москва | Круглый стол

Защита персональных данных

11 марта | Москва | Круглый стол

ВРМ в России: новый виток развития

17 марта | Москва | Форум

IV Microsoft Dynamics AX Forum’2010

18 марта | Москва | Круглый стол

Настоящее и будущее ИТ-аутсорсинга в России

24 - 26 марта | Москва | выставка

PAYTECH 2010 «Технологии электронных платежей»

25 марта | Москва | Конфренция

Актуальные потребности госсектора в ИКТ

30 марта | Москва | Конференция

Современные ГеоТехнологии: новые возможности для управления и бизнеса

1 апреля | Москва | Круглый стол

СЭД: главные тренды 2010

8 апреля | Москва | Круглый стол

Рынок ЦОД в России: планы развития

14 апреля | Москва | Конференция

Russian Open Source Summit II

15 апреля | Москва | Круглый стол

ИКТ в финансовом секторе: пути оптимизации инфраструктур

22 апреля | Москва | Конференция

Рынок видеоконференцсвязи в России 2010: новые горизонты

22 - 23 апреля | Москва | Конференция

Общие Центры Финансового Обслуживания в России и СНГ

25 мая | Москва | Круглый стол

Business Intelligence в России 2010

27 мая | Москва | Круглый стол

Защита от инсайдеров: актуальность задачи

10 июня | Москва | Круглый стол

ИКТ в ТЭК 2010: проблемы и решения

Техноблог | Форумы | ТВ | Архив
КПК-версия | Подписка на новости  | RSS