|
 |
|
 |
|
 |
|
Автоматизация государственного языка
 Евгений Коржов, директор OOO "TEKOH"
Одно из наиболее требовательных к ресурсам направлений в автоматизации человеческой деятельности – обработка текстовой информации. Необходимость такой обработки вызвала бурный рост рынка приложений, использующих полнотекстовый поиск в хранилищах электронных документов и документ-ориентированных базах данных.
Проблемы обработки текста
Современная деятельность человека становится все более информационно-ориентированной. Все чаще ему требуется найти не только конкретную, но и "похожую" информацию, найти связи (явные и скрытые) между различными фактами, определить правдивость или ложность сведений, выявить "качественные" тенденции, не выразимые в традиционных графиках и диаграммах. Такого рода задачи возникают в самых разных сферах человеческой деятельности, причем в ряде случаев (в здравоохранении, деятельности правоохранительных органов и органов государственного управления) на их решение может отводиться несколько минут и даже меньше.
Одними из самых распространенных инструментов для хранения и обработки информации являются решения компании Oracle, обладающие широкими "текстовыми" возможностями.
Текстовые возможности Oracle
Oracle Text позволяет хранить в СУБД Oracle наряду с "обычными" табличными данными документы и строить запросы как к этим документам, так и к информации, хранимой в файлах ОС или на Web-страницах.
Для реализации текстовых возможностей в СУБД Oracle используются индексы специального вида. В Oracle Text используются три вида "текстовых" индексов:
- для полнотекстового поиска по текстовым документам;
- для упрощенного и ускоренного поиска по "каталогам" (1-2 строчным текстовым описаниям);
- для построения "классификаций" документов.
Среди возможностей Oracle Text следует выделить:
- работу с документами, хранящимися в СУБД, в файловой системе и в Web;
- поддержку более 150 различных форматов документов;
- богатый язык поисковых запросов, включающий логические связки, поиск с учетом расстояний между словами, использование метасимволов и т.д.;
- мощные лингвистические опции (поиск с учетом словоформ, нечеткий поиск, расширение запросов при помощи тезауруса, тематический анализ, реферирование, классификация, кластерный анализ).
Текстовые возможности Oracle находят применение как в различных прикладных разработках, так и в ряде других продуктов корпорации:
- Oracle Ultra Search – средство для организации поиска по разнородным информационным ресурсам;
- Oracle Internet Application Server – средство создания Internet/Intranet-приложений (содержит портлет для поиска по документам и формам портала);
- Oracle Collaboration Suite – средство организации коллективной работы, включающее электронную и голосовую почту, средства публикации, календарь;
- Oracle Content Management SDK – средство управления документами различной природы с возможностью поддержания структуры каталогов, разграничением прав доступа, ведения версий документов.
Новейшая технология Oracle Secure Enterprise Search обеспечивает доступ пользователей к корпоративной и внешней информации, осуществляемый в соответствии с правами, которые установлены администратором по безопасности. При этом все источники информации защищены, а результаты поиска фильтруются таким образом, что пользователю становятся видны только ссылки на разрешенные ему для просмотра ресурсы.
Все вроде бы хорошо. Но есть одна проблема – многие из перечисленных возможностей работают только для текстов на английском и нескольких других иностранных языках. Для украинского и русского языков Oracle Text реализует только базовые поисковые возможности. Соответственно, ограничены и возможности других продуктов Oracle, поскольку они не задействуют лингвистические технологии, которые зависят от лексики, грамматики и семантики языка.
Решение проблем
Для преодоления указанного недостатка фирмой "Текон" совместно с ее партнерами – "Гарант-Парк-Интернет" (Россия) и "Трайдент Софтвер" (Украина) – был создан продукт Ukrainian Context Optimizer (UCO). В нем использованы технологии и алгоритмы, которые прошли проверку на практике и успешно работают в самых разных отраслях.
UCO for Oracle позволяет значительно расширить возможности Oracle в украиноязычных базах данных и документов. Этот продукт решает проблему полноценной реализации для украинского языка всех существующих функций Oracle Text:
- поиск документов с учетом всех грамматических форм слов запроса;
- поиск слов, близких по написанию; нечеткий поиск;
- расширение запроса синонимами, более общими и более частными понятиями (на основе тезауруса общей лексики украинского языка);
- поиск документов по ключевым темам, которые автоматически выделяются при индексировании;
- выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос близкими по смыслу темами;
- составление общих и тематических рефератов документов;
- автоматическое построение иерархических рубрикаторов, классификация документов по рубрикам;
- поддержка всех кодовых страниц украинского языка.
В UCO есть возможность интеграции с существующими приложениями, использующими Oracle Text, что позволяет расширить их функциональные возможности. Учет особенностей украинского языка, реализованный в UCO, значительно упрощает поиск и обработку документов при помощи продуктов Oracle. Разработчики различных решений на базе технологий Oracle, связанных с обработкой текста (например, электронных архивов, систем управления знаниями и систем управления документооборотом), смогут при помощи UCO более полно реализовать возможности поиска и обработки информации.
По оценкам экспертов, до 90% объема корпоративной информации представлено в виде текста. Oracle Ultra Search совместно с UCO позволяет объединить все корпоративные ресурсы в единое информационное пространство. 2008.03.17
|
|
|
 |
|
|
|