Практические применения анализа текстовой информации

Показано, как современные средства обработки и анализа текстовой информации находят себе применение в самых разных областях – от разведки и обеспечения правопорядка до автомобилизма и отношений с общественностью.

Приведем некоторые примеры, в которых показано, как могут использоваться технологии и средства анализа и обработки текстовой информации в самых разных областях человеческой деятельности.

В ЛОГОВЕ РАЗВЕДКИ

Одна из таких областей – разведка (как на государственном уровне, так и на корпоративном).

В статье "Кому нужен "совершенный" поиск?" (Открытые системы №2/2006) рассказывается о методах финансирования разработок в области информационного поиска на Западе. В частности, приводятся объяснения одного из высокопоставленных госслужащих налогоплательщикам, почему финансировались именно эти разработки и почему выбор пал именно на эти фирмы. Любопытно, что на сайте www.military-information-technology.com налогоплательщики могут ознакомиться не только с мотивацией выбора той или иной компании, но и с оценкой качества решений, приобретенных на их средства. Из информации сайта следует, что Разведывательное управление Министерства обороны США (РУМО) помимо собственных данных использует сведения, поступающие из ЦРУ, АНБ и других ведомств; для их анализа невозможно обойтись без "умного" поиска.

РУМО отвечает за сбор и анализ сведений, поступающих из многочисленных источников и представленных на разных языках, и это действительно грандиозная задача. Источники развединформации на местах предоставляют материалы аэрофотосъемки, агентурные сведения, результаты инспектирования и рекогносцировки, получаемые от множества датчиков и надземных платформ, перехваченные информационные сигналы, результаты спутниковой разведки, фото- и видеодокументы. В дополнение ко всему этому РУМО управляет глобальной инфраструктурой информационных систем, которые должны снабжать оперативной информацией (в том числе секретной) оперативные подразделения в любой части света, а также аналитической информацией – руководителей.

Об объемах информации, собираемой РУМО из открытых источников, даже говорить не приходится. Уникальные требования аналитиков военной разведки заставляют выделять применяемые ими технологии поиска информации из массовой продукции. Они включаются в подгруппу технологий, обеспечивающих развитое управление и динамическую навигацию, полноту и точность поиска.

Для анализа данных РУМО использует большой набор технологических инструментов. Акцент делается на семантическом поиске, который позволяет совершенствовать традиционный поиск в Internet с помощью специальных ссылок и определений, обеспечивающих обнаружение искомой информации. Такой поиск выходит за пределы традиционных гиперссылочных связей и совсем иначе устанавливает и использует отношения между информационными ресурсами.

Применяемые РУМО инструменты поддерживают работу со многими языками. Они обеспечивают совместное использование интегрированных знаний с помощью извлечения сущностей, сбора и анализа текстовых материалов с применением машинного распознавания семантического значения текстов. Работа с множеством языков является существенной частью поисковых процессов разведывательного сообщества. Идентификация языка – первый шаг к определению способа дальнейшей работы с документом.

Среди продуктов, использующихся РУМО, можно выделить поисковую машину InFact, которая служит для управления аналитическим поиском и извлечением разведывательной информации из источников неструктурированных данных. Она способна определять существительные, глаголы и дополнения в каждом предложении и так организовывать данные, чтобы упрощался анализ отношений между сведениями из разных документов. Это помогает осмысливать неочевидные связи, выявлять деятельность террористических организаций, определять их географическое местонахождение, прослеживать финансовые потоки и получать другие сведения.

Отмечается также необходимость сбора и обработки документов, хранящихся в недрах "скрытой Сети" (invisible Web); так называют набор Web-страниц, генерируемых сайтами и доступных пользователям, но скрытых от традиционных поисковых машин. Программы сканирования Интернет традиционных поисковиков просто не могут попасть на большинство страниц динамического сайта, которые генерируются "на лету". Для этих целей в разведовательном управлении используется Deep Query Manager (DQM).

К сожалению, такая открытость всей цепочки, от производителя до конечного потребителя технологий и продуктов информационного поиска, есть только для США. Узнать, какие технологии внедряют отечественные силовики, очень трудно. А возможности для этого есть. Для задач поиска и извлечения разведывательной информации из источников неструктурированных данных (решаемых в РУМО с помощью InFact) в Украине могут применяться такие решения компании ТЕКОН, как FactExtractor и Ukrainian Context Optimizer (UCO, подробнее о возможностях этого продукта рассказывалось в "ComputerWorld/Украина" №10 за 2008). Сбор и обработку документов, хранящихся в недрах "скрытой Сети", способен обеспечить комплекс UOSES (Ukrainian Optimized Secure Enterprise Search, "Директор информационной службы" №3/2008).

АНАЛИТИКА ДЛЯ СИЛОВИКОВ

Для обеспечения информационной поддержки принятия решения в области охраны порядка, антитеррористической деятельности, разведки, борьбы с различного рода мошенничеством требуется решение специфических следственных задач. К ним, в частности, могут быть отнесены сбор и анализ информации о физических и юридических лицах (адрес, телефоны, место регистрации, место работы, государственные идентификаторы (ИНН и проч.), информация об удостоверяющих документах). Кроме того, к числу указанных задач можно отнести необходимость выявления связей объекта с другими объектами, сбор и анализ информации о деятельности объекта, например, участие в последовательности каких-либо событий, а также транзакционный анализ, то есть анализ телефонного или электронного почтового трафика, анализ банковских операций. При этом для раскрытия преступлений требуются особые методы сбора, отображения и обработки данных. Серьезные отличия в решаемых задачах требуют также различного представления данных и использования различных технологий анализа.

В статье "На что способны ИТ-решения для силовиков" (CNews.ru, 17 января 2006) показываются особенности информационно-аналитических систем государственных правоохранительных органов, и их отличия от традиционных аналитических систем поддержки принятия решений.

Особенности "силовой" аналитики

"Традиционные" аналитические системы на базе OLAP-технологий особо эффективны при анализе числовой информации. Основными задачами такого анализа являются: выявление зависимости поведения анализируемого показателя от ряда параметров, обнаружение значений параметров с аномальным поведением анализируемого показателя, предсказание значения анализируемого показателя при изменении параметров. Типичный пример – анализ продаж того или иного продукта по регионам и кварталам.

Для аналитиков, занимающихся следственной деятельностью, наиболее естественной моделью данных является граф, а не многомерный куб. А значительная часть аналитической работы их работы заключается в выявлении связей между объектами. Поэтому основными понятиями модели данных становятся не "мера" и "размерность", как в случае многомерных моделей, а "объект" и "связь". Подобного рода информацию трудно агрегировать, что делает малопригодными средства представления информации в виде экранных форм и таблиц (даже если данные могут быть агрегированы, их анализ зачастую не представляет интереса, поскольку предметом поиска являются редкие на фоне стандартного поведения факты). Соответственно, на первый план выходят визуальные средства анализа и такие графические представления данных как диаграммы связей, диаграммы последовательности событий и диаграммы транзакций.

Другой существенной особенностью построения аналитических систем, связанных с безопасностью, является способ формирования хранилища данных. Если для финансовых аналитических систем источником данных, как правило, являются информационные системы, работающие в рамках одной и той же организации. При этом число объектов, подлежащих идентификации при загрузке хранилища по сравнению с объемом данных об этих объектах относительно невелико. Количество подобных объектов обычно исчисляется несколькими сотнями или тысячами. Иная ситуация наблюдается в аналитических системах безопасности. Объектом исследования является физическое или юридическое лицо. Количество таких объектов в хранилище исчисляется десятками миллионов. Причем данные поступают из совершенно не связанных между собой источников (Интернет, СМИ, базы данных различных ведомств). Естественно, ни о каком согласованном способе идентификации объектов между подобными источниками данных не может быть и речи. Поэтому велик объем дублирующих данных по одному и тому же объекту.

Поиск иголки

В традиционных статистико-финансовых системах наибольший интерес представляют макропоказатели, и, соответственно, логика анализа данных строится на изучении поведения существенным образом агрегированных данных, что позволяет сжать исходный объем данных до уровня, доступного для восприятия аналитика.

Подобный подход далеко не всегда адекватен задачам, стоящим перед ИАС силовых подразделений. Информация в таких системах часто не подлежит агрегированию. Например, борьба с отмыванием нелегальных доходов предполагает поиск в огромном потоке вполне легальных финансовых операций отдельных случаев отмывания денег. Поскольку основной поток операций имеет вполне легальный характер, то по агрегированным данным обнаружить нарушения вряд ли удастся.

Здесь стоит отметить, что аналогичные проблемы есть и во множестве других сфер деятельности: выявление фактов мошенничества в страховом бизнесе, принятие решения об открытии кредитной линии банком и т.п. Общим для этих случаев является поиск в массиве данных, хотя и относительно редких, но важных событий, в той или иной мере обладающих устойчивыми характерными признаками.

Архитектура "силовой" аналитической системы

Характерной чертой аналитических систем, предназначенных для поддержки принятия решения в области обеспечения безопасности, будь то государственная безопасность, общественная или корпоративная, является акцент на работе с отдельным объектом, на выявление его связей и отношений с другими объектами, обнаружение в его поведении некоторых характерных признаков. Отмеченные особенности ИАС, применяемых силовыми подразделениями и службами безопасности, приводят к отличной от традиционной архитектуре аналитической системы. К ключевым аспектам традиционных ИАС: хранилище данных, внешние источники с процедурами ETL (извлечение-преобразование-загрузка) добавляются системы интегрированного управления данными, средства визуального анализа, технологии извлечения знаний.

Таким образом, аналитические системы служб безопасности, унаследовав общие черты систем поддержки принятия решений, обладают рядом существенных особенностей, специфических для данной предметной области. Изменения проявляются и в модели данных, и в архитектурных решениях, и в клиентском программном обеспечении.

Интеграция данных

Включение в ИАС системы интегрированного управления данными позволяет не только более адекватно решать задачи идентификации дублирования данных об объектах (как в собственных, так и внешних базах данных), но и существенно повысить качество данных, помогая обнаружить ошибки ввода, нарушения логических связей, целостности ссылок. Немаловажно, что такие компоненты становятся доступны от прочно укрепившихся на рынке информационных технологий компаний, таких например как Oracle (серия продуктов Oracle Data Hub). Применение подобных продуктов позволяет не просто консолидировать информацию об объектах в едином хранилище во время первоначальной загрузки, но продолжать независимое функционирование подсистем, выполняющих роль источников данных, не теряя согласованного представления об объекте.

В настоящее время на рынке программного обеспечения, ориентированного на следственную деятельность, можно отметить три компании: i2 Limited, Visual Analytics и Xanalys. Программные продукты этих компаний, существенным образом отличаясь архитектурно, используют одну и ту же модель данных ("объект-связь") и во многом пересекаются функционально, поскольку так или иначе пытаются решать одни и те же задачи визуального анализа данных, хранения данных, появляющихся во время расследования, использования данных, хранимых во внешних базах данных, а также работы с неструктурированными данными. Поскольку основной упор в программном обеспечении подобного рода делается на визуальное восприятие, то лидирующую роль играют графические средства представления информации.

Но функциональность таких продуктов не ограничивается только графическим представлением данных. Есть и другие интересные возможности. Так, например, расширение связей, когда аналитик может одним щелчком мышки найти в базе данных, не только прямые, но и косвенные связи объекта. Кроме того, возможен поиск пути между объектами, как на схеме, так и в базе данных позволяющий показать цепочку объектов и связей между ними, ведущую от одного из изучаемых объектов к другому. Для большей наглядности и простоты обработки данных предпочтительным является выделение на схеме группы наиболее тесно связанных между собой объектов. В подобных системах реализуется также поиск объектов со схожими именами, и автоматическая идентификация дубликатов объектов на схеме, а также графическое задание запроса на поиск.

Последнее особенно интересно, поскольку позволяет аналитику создавать шаблоны событий. Так, например, аналитик страховой компании мог бы интересоваться поиском группы водителей, одновременно вовлеченными в серию ДТП, но в разных ролях (когда группа мошенников в различных ДТП поочередно выступает, то в роли потерпевшего, то в роли виновного, то в роли свидетеля).

Извлечение знаний

В линейку продуктов, предлагаемых компаниями, разрабатывающими аналитическое программное обеспечение с возможностями визуализации, как правило, входят так же специализированные СУБД, алгоритмы извлечения знаний, GIS-модули, элементы OLAP технологий, средства работы с текстом.

Наряду со средствами работы со структурированными данными, хранящимися в той или иной базе данных, в линейку аналитических продуктов входят средства работы с неструктурированной информацией. Программные продукты данного направления позволяют выделить в тексте основные элементы информации (разметить текст). Импортируя результаты разметки в базу данных, аналитик, тем самым структурирует информацию. Фрагменты размечаемого текста непосредственно присваиваются атрибутам объектов. При этом разметка текста сопровождается графическим аннотированием документа – наряду с разметкой строится диаграмма объектов, описываемых в документе, и отношений между ними.

Например, при анализе большого числа транзакций часто используется алгоритм выявления шаблонов транзакций. Под шаблоном транзакций понимается группа транзакций между одними и теми же объектами, многократно повторяемая во времени. Пример – поиск повторяющихся последовательностей звонков в списке телефонных звонков (или в обмене сообщениями электронной почты, или текстами SMS) с целью выявления группы наиболее тесно связанных между собой лиц.

Следует отметить, что продукты ТЕКОН FactExtractor и UCO – единственные, позволяющие извлекать требуемую информацию из текстов и сообщений на украинском языке.

АВТОМОБИЛИ И ОНТОЛОГИЧЕСКИЙ ИНЖИНИРИНГ

Перекочевав в смежные с искусственным интеллектом области, термин "онтология" стал популярен в области систем машинного анализа текста, где в большинстве случаев используется в узком значении – в качестве синонима термина "тезаурус" или "классификатор" – и представляет собой словарь понятий (концептов), каждому из которых соответствует синонимический ряд терминов, плюс иерархическую структуру взаимосвязей между ними типа "часть-целое" или "общее-частное". Такие "онтологии в слабом смысле" используются для формулировки запросов к поисковой машине, для автоматической классификации (категоризации) текстов.

Работающих прикладных программ, относимых к классу систем извлечения знаний из текста и использующих "онтологии в сильном смысле", т.е. методы искусственного интеллекта, способные нетривиально перерабатывать извлеченные из текста элементы знаний (интерпретировать, обобщать, выявлять зависимости, прогнозировать и т.п.), сегодня не существует, во всяком случае, для русского и украинского языков. Такое ограниченное использование онтологий обусловлено двумя факторами.

Во-первых, слабым распространением систем лингвистического анализа текста, способных интерпретировать синтаксические отношения между словами и действительно извлекать знания как некие нетривиальные элементы, обладающие внутренней структурой, пригодные для нетривиальной смысловой обработки. Такие системы только начали появляться в последние несколько лет (один из них – FactExtractor) и еще не успели "обрасти" приложениями.

Во-вторых, относительно низкой достоверностью автоматически извлекаемых из текста утверждений и фактов, что обусловлено как несовершенством алгоритмов анализа текста, так и качеством источников информации – ведь для практических целей интересно извлечение знаний не из научной литературы, которая уже представляет конгломерат знания, а из "недистиллированных" источников текста, к каковым относятся социальные сети Интернет, современные СМИ, и даже архивы отчетов организаций.

Также к особенностям применения онтологий в системах извлечения знаний из текста относится необходимость иметь дополнительную лингвистическую составляющую как для распознавания различных способов обозначения понятий (синонимичные термины), так и для семантической интерпретации разнообразных языковых конструкций в отношения между этими понятиями (синонимичные лексико-грамматические конструкции).

Таким образом, для систем извлечения знаний из текста наиболее типичной является онтология "в слабом смысле" с относительно бедной концептуальной, но чрезвычайно богатой лингвистической составляющей.

Пример разработки специалистами компании "ЭР СИ О" (российский партнер компании ТЕКОН) онтологии для предметной области "Автомобили", а также экспериментальной проработки и успешной апробации методики приведен в статье (http://www.rco.ru/attach/news/5790/onthologies.pdf).

Построенная онтология предназначена для оценки конкретных марок автомобилей с точки зрения характеристик их потребительских свойств, высказываемых в отзывах потребителей, размещенных в Интернет. При составлении онтологии использовался реальный языковой материал, полученный из автомобильных сообществ блога www.livejournal.ru/auto  – около 30 Мбайт текстовых сообщений.

Результирующая онтология содержит более 1200 терминов (не считая конкретных марок автомобилей), из которых 211 представляют собой наименования узлов автомобиля (движок, коробка передач, ходовая часть); 71 – наименование их свойств (ходовые качества, комфорт, надежность, стоимость содержания); 882 – возможные наименования оценок характеристик узлов и свойств, включающие прилагательные, существительные, глаголы и наречия (крутой, поломка, глючить, отстойно), 37 эмоциональных характеристик (любить, жалоба, плеваться). Возможные связи в предложении между классами терминов из онтологии описываются 150 лексико-грамматическими шаблонами.

В результате для каждой модели автомобиля в блогах удается "выловить" положительные и отрицательные отзывы, классифицировав их по темам "за что хвалят/ругают". Такая информация будет полезна как производителям, так и дилерам автотехники. И конечно – водителям.

ОЦЕНКА ИМИДЖ

В современном обществе успех все более зависит от привлекательности внешнего образа (имиджа) компании, организации (скажем, политической партии), страны, отдельного человека, продукта, и даже идеи. Понимание этого факта привело к созданию такого неоднозначно воспринимаемого явления, как public relations или PR.

Сегодня PR-инструментов для формирования требуемого образа (как положительного, так и негативного) создано достаточное количество. Однако их применение не гарантирует достижения желаемой цели, тем более "сразу". Способы применения инструментов и меры воздействия необходимо корректировать, оценивая результаты изменяемого образа. Одно из обязательных условий – получение максимально объективного отклика, то есть создание эффективной обратной связи. Тем самым возникает задача оценить "общественный" образ объекта, получить статистически значимую совокупность его информационных характеристик ("информационный портрет").

Возможно, лучший вариант – построить такой портрет по информации, "взятой" непосредственно из умов людей (то есть анализировать прямой отклик). Для этого обычно применяется методика опросов, однако у нее есть ряд ограничений:

  • хорошо подходит для ответов на простые вопросы, но не дает полную картину;
  • требует существенные ресурсы – финансовые и человеческие (как следствие, не может использоваться часто);
  • требует качественной организации выборки (возраст, профессия, место проживания опрашиваемых и многое другое);
  • существуют группы людей (руководители, политики), важные для полноты картины, но прямой опрос которых затруднен;
  • в какой-то степени опрос влияет на отклик (искажает картину).

С другой стороны, имеется косвенный отклик – информация в средствах массовой информации (пресса, телевидение). Такая информация сравнительно дешева и доступна, но обычно менее объективна. Требуется оценить позиции и интересы, представленные в СМИ, чтобы сделать отображаемую ими картину комплексной и сравнительно объективной.

Не вдаваясь в детали, отметим только, что технология оценки имиджа должна включать: декомпозицию образа с возможностью раскрытия отдельных деталей; сравнение нескольких портретов; определение тенденций и динамики изменения образа; индикацию аномалий. Кроме того, такая технология должна быть сравнительно дешевой, относительно быстрой и не требовать специальной подготовки использующих ее людей. Последний важный момент, она должна обладать статистической достоверностью, а также информационной полнотой (то есть должен анализироваться максимум имеющейся информации).

Как видим, здесь появляется проблема избыточности информации, ведь в том и суть общественного образа, что он строится из тысяч упоминаний вскользь, случайных ссылок, незаметных оговоров и навешенных ярлыков. И чем больше информации, тем выше качество и точность оценки имиджа, что позволяет более эффективно его формировать и корректировать, планировать свои действия (против каких представлений и мнений в обществе бороться, а какие поддерживать).

Еще раз отмечу, что только продукты и решения компании ТЕКОН способны быстро и качественно обрабатывать информацию из украиноязычных текстовых и электронных средств массовой информации.

Евгений Коржов
000 ТЕКОН
01010, Киев-10 ул. Ивана Мазепы, 14, офис 43
тел. (044) 280-01-80
факс (044) 254-29-39

http://uco.ua

2008.10.27
19.03.2009
В IV квартале 2008 г. украинский рынок серверов по сравнению с аналогичным периодом прошлого года сократился в денежном выражении на 34% – до $30 млн (в ценах для конечных пользователей), а за весь календарный год – более чем на 5%, до 132 млн долл.


12.03.2009
4 марта в Киеве компания Telco провела конференцию "Инновационные телекоммуникации", посвященную новым эффективным телекоммуникационным технологиям для решения задач современного бизнеса.


05.03.2009
25 февраля в Киеве компания IBM, при информационной поддержке "1С" и Canonical, провела конференцию "Как сохранить деньги в условиях кризиса?"


26.02.2009
18-19 февраля в Киеве прошел юбилейный съезд ИТ-директоров Украины. Участниками данного мероприятия стали ИТ-директора, ИТ-менеджеры, поставщики ИТ-решений из Киева, Николаева, Днепропетровска, Чернигова и других городов Украины...


19.02.2009
10 февраля в Киеве состоялась пресс-конференция, посвященная итогам деятельности компании "DiaWest – Комп’ютерний світ" в 2008 году.


12.02.2009
С 5 февраля 2009 г. в Киеве начали работу учебные курсы по использованию услуг "электронного предприятия/ учреждения" на базе сети информационно-маркетинговых центров (ИМЦ).


04.02.2009
29 января 2009 года в редакции еженедельника "Computer World/Украина" состоялось награждение победителей акции "Оформи подписку – получи приз!".


29.01.2009
22 января в Киеве компания "МУК" и представительство компании Cisco в Украине провели семинар для партнеров "Обзор продуктов и решений Cisco Small Business"

 

 
 
Copyright © 1997-2008 ИД "Комиздат".