Автоматизация государственного языка


Евгений Коржов, директор OOO "TEKOH"

Одно из наиболее требовательных к ресурсам направлений в автоматизации человеческой деятельности – обработка текстовой информации. Необходимость такой обработки вызвала бурный рост рынка приложений, использующих полнотекстовый поиск в хранилищах электронных документов и документ-ориентированных базах данных.

Проблемы обработки текста

Современная деятельность человека становится все более информационно-ориентированной. Все чаще ему требуется найти не только конкретную, но и "похожую" информацию, найти связи (явные и скрытые) между различными фактами, определить правдивость или ложность сведений, выявить "качественные" тенденции, не выразимые в традиционных графиках и диаграммах. Такого рода задачи возникают в самых разных сферах человеческой деятельности, причем в ряде случаев (в здравоохранении, деятельности правоохранительных органов и органов государственного управления) на их решение может отводиться несколько минут и даже меньше.

Одними из самых распространенных инструментов для хранения и обработки информации являются решения компании Oracle, обладающие широкими "текстовыми" возможностями.

Текстовые возможности Oracle

Oracle Text позволяет хранить в СУБД Oracle наряду с "обычными" табличными данными документы и строить запросы как к этим документам, так и к информации, хранимой в файлах ОС или на Web-страницах.

Для реализации текстовых возможностей в СУБД Oracle используются индексы специального вида. В Oracle Text используются три вида "текстовых" индексов:

  • для полнотекстового поиска по текстовым документам;
  • для упрощенного и ускоренного поиска по "каталогам" (1-2 строчным текстовым описаниям);
  • для построения "классификаций" документов.

Среди возможностей Oracle Text следует выделить:

  • работу с документами, хранящимися в СУБД, в файловой системе и в Web;
  • поддержку более 150 различных форматов документов;
  • богатый язык поисковых запросов, включающий логические связки, поиск с учетом расстояний между словами, использование метасимволов и т.д.;
  • мощные лингвистические опции (поиск с учетом словоформ, нечеткий поиск, расширение запросов при помощи тезауруса, тематический анализ, реферирование, классификация, кластерный анализ).

Текстовые возможности Oracle находят применение как в различных прикладных разработках, так и в ряде других продуктов корпорации:

  • Oracle Ultra Search – средство для организации поиска по разнородным информационным ресурсам;
  • Oracle Internet Application Server – средство создания Internet/Intranet-приложений (содержит портлет для поиска по документам и формам портала);
  • Oracle Collaboration Suite – средство организации коллективной работы, включающее электронную и голосовую почту, средства публикации, календарь;
  • Oracle Content Management SDK – средство управления документами различной природы с возможностью поддержания структуры каталогов, разграничением прав доступа, ведения версий документов.

Новейшая технология Oracle Secure Enterprise Search обеспечивает доступ пользователей к корпоративной и внешней информации, осуществляемый в соответствии с правами, которые установлены администратором по безопасности. При этом все источники информации защищены, а результаты поиска фильтруются таким образом, что пользователю становятся видны только ссылки на разрешенные ему для просмотра ресурсы.

Все вроде бы хорошо. Но есть одна проблема – многие из перечисленных возможностей работают только для текстов на английском и нескольких других иностранных языках. Для украинского и русского языков Oracle Text реализует только базовые поисковые возможности. Соответственно, ограничены и возможности других продуктов Oracle, поскольку они не задействуют лингвистические технологии, которые зависят от лексики, грамматики и семантики языка.

Решение проблем

Для преодоления указанного недостатка фирмой "Текон" совместно с ее партнерами – "Гарант-Парк-Интернет" (Россия) и "Трайдент Софтвер" (Украина) – был создан продукт Ukrainian Context Optimizer (UCO). В нем использованы технологии и алгоритмы, которые прошли проверку на практике и успешно работают в самых разных отраслях.

UCO for Oracle позволяет значительно расширить возможности Oracle в украиноязычных базах данных и документов. Этот продукт решает проблему полноценной реализации для украинского языка всех существующих функций Oracle Text:

  • поиск документов с учетом всех грамматических форм слов запроса;
  • поиск слов, близких по написанию; нечеткий поиск;
  • расширение запроса синонимами, более общими и более частными понятиями (на основе тезауруса общей лексики украинского языка);
  • поиск документов по ключевым темам, которые автоматически выделяются при индексировании;
  • выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос близкими по смыслу темами;
  • составление общих и тематических рефератов документов;
  • автоматическое построение иерархических рубрикаторов, классификация документов по рубрикам;
  • поддержка всех кодовых страниц украинского языка.

В UCO есть возможность интеграции с существующими приложениями, использующими Oracle Text, что позволяет расширить их функциональные возможности. Учет особенностей украинского языка, реализованный в UCO, значительно упрощает поиск и обработку документов при помощи продуктов Oracle. Разработчики различных решений на базе технологий Oracle, связанных с обработкой текста (например, электронных архивов, систем управления знаниями и систем управления документооборотом), смогут при помощи UCO более полно реализовать возможности поиска и обработки информации.

По оценкам экспертов, до 90% объема корпоративной информации представлено в виде текста. Oracle Ultra Search совместно с UCO позволяет объединить все корпоративные ресурсы в единое информационное пространство.

2008.03.17
19.03.2009
В IV квартале 2008 г. украинский рынок серверов по сравнению с аналогичным периодом прошлого года сократился в денежном выражении на 34% – до $30 млн (в ценах для конечных пользователей), а за весь календарный год – более чем на 5%, до 132 млн долл.


12.03.2009
4 марта в Киеве компания Telco провела конференцию "Инновационные телекоммуникации", посвященную новым эффективным телекоммуникационным технологиям для решения задач современного бизнеса.


05.03.2009
25 февраля в Киеве компания IBM, при информационной поддержке "1С" и Canonical, провела конференцию "Как сохранить деньги в условиях кризиса?"


26.02.2009
18-19 февраля в Киеве прошел юбилейный съезд ИТ-директоров Украины. Участниками данного мероприятия стали ИТ-директора, ИТ-менеджеры, поставщики ИТ-решений из Киева, Николаева, Днепропетровска, Чернигова и других городов Украины...


19.02.2009
10 февраля в Киеве состоялась пресс-конференция, посвященная итогам деятельности компании "DiaWest – Комп’ютерний світ" в 2008 году.


12.02.2009
С 5 февраля 2009 г. в Киеве начали работу учебные курсы по использованию услуг "электронного предприятия/ учреждения" на базе сети информационно-маркетинговых центров (ИМЦ).


04.02.2009
29 января 2009 года в редакции еженедельника "Computer World/Украина" состоялось награждение победителей акции "Оформи подписку – получи приз!".


29.01.2009
22 января в Киеве компания "МУК" и представительство компании Cisco в Украине провели семинар для партнеров "Обзор продуктов и решений Cisco Small Business"

 

 
 
Copyright © 1997-2008 ИД "Комиздат".