Как ускорить ввод в базу данных анкет, квитанций и других данных, которые предоставляются на бланках, заполненных от руки? Можно, конечно, увеличить количество операторов — а можно установить систему автоматического ввода данных с форм.


Вряд ли найдется человек, которому не доводилось бы заполнять бланки. Анкеты, счета, декларации и тому подобные документы давно существуют в различных областях человеческой деятельности. С другой стороны, сегодня для хранения и обработки информации повсеместно используются компьютеры и компьютерные сети. Неудивительно, что перенос информации с бумажных бланков в компьютерное хранилище данных стал одной из самых актуальных задач в области документооборота.


Зачем автоматизировать ввод форм?


С чем связана актуальность задач автоматического ввода форм в практике большинства организаций?


Есть три причины, по которым эта задача остается актуальной, несмотря на широкое распространение компьютеров и интернета. Прежде всего, это неравномерность нагрузки операторов. Отчеты, собираемые государственной администрацией, платежные поручения в банк, заявления и другие документы никогда не поступают регулярно. Обычная ситуация выглядит по-другому: если срок подачи каких-то данных — в течение, скажем, двух недель, то в начале этого периода в операционном зале пусто и тихо, как в музее, но в последние три дня он скорее напоминает вокзал в сезон отпусков.


Для руководства организации — налоговой инспекции, банка, торговой фирмы — это очень серьезная проблема. Например, в банках есть несколько пиковых дней, когда количество платежных поручений в 2–3 раза превышает обычное: последний день месяца и несколько дней в середине, когда осуществляются бюджетные платежи. Как решить эту проблему? Нанимать людей для "сезонной" работы и увольнять их два раза в месяц? Вряд ли это рационально. Чаще количество персонала в организации рассчитано на максимальную нагрузку. В остальные дни операторы просто работают не в полную силу. Конечно, экономически это не очень целесообразно. Автоматизация позволяет решить проблему пиковых нагрузок.


Второе, что необходимо обеспечить при вводе данных — достаточно высокую скорость обработки. Когда человек вручную вводит в компьютер какие-то данные, его скорость падает с каждым следующим введенным документом. Причина этого — компьютерный зрительный синдром. Когда приходится долго смотреть на экран компьютера, глаза устают, и это сказывается на всем организме: замедляются рефлексы, ослабляется внимание. Оператор начинает работать медленнее, допускать больше ошибок. Поэтому к обработке большого количества данных приходится привлекать очень много людей, причем не всегда удается точно подсчитать, сколько именно их нужно, так как со временем люди будут работать все медленнее и медленнее.


Третья и самая важная причина — обеспечение достоверности введенных данных. Необходимо, чтобы введенные данные точно соответствовали тому, что написано на бумаге. Это гораздо сложнее, чем может показаться. Достаточно сказать, что для обеспечения достоверности при ручном вводе часто поручают ввод одной и той же бумажной формы двум людям. Потом результат автоматически сравнивается — и постоянно обнаруживаются расхождения. Стоит ли говорить, к чему могут привести такие неточности, например, в банковской практике?


Автоматизация ввода форм в значительной степени решает эту проблему, так как в роли одного из двух операторов выступает компьютерная система. Она автоматически распознает поступающие на вход бумаги и передает оператору сомнительные места для подтверждения. Таким образом, человек избавляется от основного источника ошибок — рутинной работы — и только подтверждает, правильно ли система распознала введенный документ.


Автоматизированный ввод форм заключается в следующих операциях:

  • скоростное сканирование заполненных форм (производительность скоростного сканера обычно составляет не менее 10 страниц в минуту);
  • автоматическое распознавание;
  • верификация: автоматическая, по правилам сложных систем (по справочникам, проверка сумм, перекрестные проверки и т.п.); групповая, когда на экран оператора выдаются все символы, которые система считает одинаковыми, но в которых сомневается; контекстная, при которой проверяются целые поля.
  • экспортирование подтвержденной информации в базу данных.

Производительность труда одного оператора при автоматизированном вводе составляет от 400 до 3000 страниц в день, в зависимости от сложности форм, в то время как при ручном вводе — 70–300. При этом резко возрастает качество, поскольку компьютерная система не подвержена усталости. Кроме того, в ней обычно используются правила контроля данных, существенно повышающие общую надежность системы.


Распознавание форм


Выделяют два основных класса систем оптического распознавания символов: OCR (optical character recognition) и ICR (intelligent character recognition). OCR-системы распознают печатные символы, нанесенные на бумагу типографским способом, при помощи принтера, плоттера или пишущей машинки. ICR-системы обрабатывают документы, заполненные печатными буквами и цифрами от руки.


OCR-система разбивает изображение на блоки (текст, таблицы, иллюстрации), затем последовательно разделяет каждый блок на более мелкие объекты: абзацы, строки, слова, символы. Последние, собственно, и распознаются. Затем распознанные символы снова "собираются" в слова, строки и так далее, вплоть до синтеза полного электронного аналога исходного документа.


Для распознавания форм используются преимущественно ICR-системы, которые функционируют несколько иначе: на исходном изображении выделяются области, в которых должна содержаться смысловая информация, и именно эти фрагменты подвергаются дальнейшей обработке, в том числе и средствами OCR-распознавания. Другими словами, ICR-система не строит точную электронную модель документа, а лишь извлекает информацию из четко ограниченных областей. Эта информация и передастся в систему хранения.


Разумеется, перед ICR-системами стоит гораздо более сложная задача, чем перед программами оптического распознавания. Для того чтобы ICR-система правильно работала, на ее вход передаются данные, вписанные в специально разработанные бланки, или формы. Формой называют документ, имеющий фиксированную структуру и предназначенный для сбора определенной информации. Основными признаками формы является наличие четко обособленных полей, пояснительных надписей, а также ряда служебных элементов.


При заполнении формы вся значимая информация заносится в поля — особым образом разграфленные ячейки. Именно эта информация подлежит дальнейшей обработке. Формы, в которых определение положения полей и отделение данных от разметки может быть выполнено автоматически, программными средствами, называют машиночитаемыми. Именно машиночитаемые формы применяются при автоматизированном вводе данных. Впрочем, практически любая форма может быть преобразована в машиночитаемую.


Клиенты организации могут заполнять машиночитаемую форму по-разному — па пишущей машинке или принтере либо от руки. В последнем случае форма составляется так, чтобы каждый вписываемый символ занимал отдельное знакоместо. Возможны и комбинированные формы, где часть информации напечатана, а часть — вписана от руки.


 

Создание шаблона формы


Выделяют два основных типа форм: жесткие и гибкие. Жесткие формы — это формы с одинаковыми полями; если сложить несколько листов с такими формами, то они совпадут на просвет. Обычно такие формы заполняют вручную. К жестким относятся формы Пенсионного фонда, формы для выдачи заявлений на платежные карты, используемые в ряде банков, а также формы, заполняемые торговыми агентами в некоторых дистрибьюторских компаниях. Для того чтобы найти и распознать данные в такой форме, создается ее подобие — шаблон, который затем программа "накладывает" на поступающие изображения заполненных форм. Поля, подлежащие распознаванию, как бы "вырезаются" из изображения, а содержащиеся в них буквы и цифры распознаются. Для разработки шаблонов жестких форм применяется, в частности, продукт ABBYY FormReader.


В отличие от жестких форм, где для распознавания используется геометрическая привязка — заранее известные геометрические координаты каждого из распознаваемых блоков, — при распознавании гибких форм используется смысловая привязка. Например, известно, что справа от слова "Invoice" всегда находится номер документа, однако само слово "Invoice" может находиться где угодно. Поэтому система вначале распознает все, что есть на экране, потом находит слово "Invoice" и ищет справа от него некую последовательность цифр, которую и считает номером документа. Эта технология позволяет эффективно обрабатывать нежесткие, слабы структурированные документы, такие как платежные поручения.


Для разработки гибких форм широко применяется продукт ABBYY Flexi Capture Studio Разработчик шаблона "обучает" программу искать нужные поля. Для этого на метаязыке FlexiCapture Studio создается описание расположения каждого поля формы через параметры, описывающие его внешние признаки: стандартный текст, рисунки, разделители, свободные области и т.п. По этому описанию программа находит на форме нужные объекты. Если поля найдены правильно, шаблон тестируется на большом количестве форм, уточняется и переносится в программу FormReader.


Организация потокового ввода данных


Выделяют два основных подхода к организации потокового ввода данных: обработка форм по мере поступления и по мере накопления. В первом случае система автоматизированного ввода внедряется по принципу front-office (в секретариате, клиентском отделе), во втором — по принципу back-office (в вычислительном центре, внутренних отделах).


Для системы автоматизированной обработки данных, устанавливаемой непосредственно на месте приема форм, скорость сканирования не очень важна. Поэтому не обязательно использовать специальный скоростной сканер — подойдет и обычный планшетный. Современные модели обрабатывают лист формата А4 за 30–40 секунд — на общение с клиентом все равно уйдет больше времени.


Если же формы обрабатываются по мере накопления, необходим другой подход. Прежде всего, понадобятся промышленные скоростные сканеры. Это дорогие устройства, часто рассчитанные на круглосуточную работу, так что желательно организовать ввод данных в несколько смен. Затем следует организовать распределенную систему обработки, когда каждый оператор имеет свою специализацию: сканирование, распознавание, верификация или экспорт. В таком режиме ввода необходим значительно более строгий, чем в режиме front-office, контроль качества: одно дело — исправить ошибку, вкравшуюся в единственную квитанцию, другое — в десяток тысяч. Однородные данные часто объединяются в пакеты, каждый из который имеет свои программные настройки. Таким образом облегчается администрирование, маршрутизация и хранение данных. Для такого режима ввода применяются системы класса ABBYY FormReader Enterprise Edition.

 

Общая схема организации потокового воода данных


Построение систем потокового ввода


Общепризнанным лидером в области распознавания документов, ввода форм и прикладной лингвистики является компания ABBYY. С точки зрения интеграции ее технологий в готовые решения ее программное обеспечение можно разделить на три уровня.


Первый уровень — готовые решения, которые можно эксплуатировать с минимальной настройкой. Они также почти не требуют подготовки персонала. В области распознавания документов это известный FineReader, в области ввода форм — FormReader, в области прикладной лингвистики — популярный словарь Lingvo.


Следующий уровень — продукты, предназначенные для интеграции технологий ABBYY в корпоративные решения. В них учтены основные задачи, стоящие перед системным интегратором: создание качественного решения в кратчайшие сроки с возможно меньшим бюджетом. При этом оптимизация этих приложений по скорости отступает на второй план. Для распознавания документов на этом уровне используется FineReader Scripting Edition, позволяющий использовать FineReader и его интерфейс в приложениях, разрабатываемых системными интеграторами; для ввода форм — FormReader Open API, позволяющий использовать функциональность FormReader в других приложениях; Flexi Capture Studio для разработки гибких шаблонов и Retrieval&Morphology Engine, продукт из области прикладной лингвистики, позволяющий находить одинаковые слова в тексте с учетом их морфологии. Последняя проблема особенно остро стоит в кирилличных языках, где разные формы одного и того же слова отличаются до полной неузнаваемости (сравните, например, украинское "є" и "був").


Третий уровень образуют продукты для разработчиков ПО, создающих тиражируемые решения. Например, на базе ABBYY FineReader Engine было создано приложение для распознавания визитных карточек, способное автоматически определить, где на карточке фамилия, имя, телефон, название организации и другие атрибуты.


Оптимальная конфигурация системы автоматизированного ввода зависит от конкретного проекта. Обычно план внедрения той или иной системы разрабатывается при участии специалистов со стороны разработчика и заказчика, располагающих полной информацией об особенностях работы данного предприятия.


Когда возникает необходимость автоматизированного ввода форм? Вот несколько характерных ситуаций.

 

С точки зрения интеграции технологий ABBYY в готовые решения ее программное обеспечение можно разделить на три уровня: для конечного пользователя, для системного  интегратора и для разработчика программных систем


Обработка форм не является профильной деятельностью компании. Например, во многих производственных и торговых компаниях нет отдельного подразделения, специализирующегося на вводе форм. Входящие документы, такие как заявки на поставку продукции, обрабатывает секретарь в приемной.


Если таких форм достаточно много, то эту операцию можно автоматизировать, например, с помощью ABBYY FormReader Desktop Edition. Эта система устанавливается на одном рабочем месте, не требует расширения штата и дополнительного обслуживания.


Обработка анкет — один из основных бизнес-процессов. Если компания — например, маркетинговое агентство — собирает и обрабатывает большие объемы данных (несколько тысяч страниц в день), необходим другой подход. Часто в таких компаниях особенно остро стоит вопрос пиковых нагрузок, так что возникает задача обеспечения масштабируемости — возможности быстрого расширения и сокращения системы по мере необходимости. Кроме того, формы имеют тенденцию меняться от проекта к проекту, так что возникает потребность в удобном средстве конструирования новых форм. Всем этим условиям удовлетворяет система автоматизированного ввода форм ABBYY FormReader Enterprise Edition.


Оцифровка архивов. Такие процессы обычно выполняются один раз — "сделать и забыть", но объем информации, подлежащей оцифровке, весьма велик. В этом случае главное — простота решения, даже если на его реализацию уйдет больше времени. Лишь бы привлекать поменьше людей и денег.


В таком случае можно воспользоваться специальной системой лицензирования ABBYY FormReader — моделью Page Count, по которой пользователь приобретает возможность ввода ограниченного числа страниц.

 

Михаил БЕЙРАК, руководитель  отдела корпоративных проектов компании ABBYY Украина: "Главные условия успешности проекта — наличие квалифицированного руководителя со стороны заказчика и обучение персонала. Только тогда правильно настроенная система будет эффективно работать.


Заключение


Системы автоматизированного ввода успешно применяются в различных организациях — Госкомстате, Пенсионном фонде, Государственной службе занятости, Национальном и многих коммерческих банках, а также в ряде крупных компаний и некоторых высших учебных заведениях. Эти системы используются для ввода анкет, форм налоговой отчетности, платежных поручений, экзаменационных листов, страховых полисов, корреспонденции, архивных документов, чертежей, географических карт, микрофильмов и др. Благодаря автоматизации скорость ввода данных возрастает в 3–5 раз, что позволяет справляться с пиковыми нагрузками, уменьшает объем рутинного труда операторов и повышает достоверность введенных данных.

2005.01.14
19.03.2009
В IV квартале 2008 г. украинский рынок серверов по сравнению с аналогичным периодом прошлого года сократился в денежном выражении на 34% – до $30 млн (в ценах для конечных пользователей), а за весь календарный год – более чем на 5%, до 132 млн долл.


12.03.2009
4 марта в Киеве компания Telco провела конференцию "Инновационные телекоммуникации", посвященную новым эффективным телекоммуникационным технологиям для решения задач современного бизнеса.


05.03.2009
25 февраля в Киеве компания IBM, при информационной поддержке "1С" и Canonical, провела конференцию "Как сохранить деньги в условиях кризиса?"


26.02.2009
18-19 февраля в Киеве прошел юбилейный съезд ИТ-директоров Украины. Участниками данного мероприятия стали ИТ-директора, ИТ-менеджеры, поставщики ИТ-решений из Киева, Николаева, Днепропетровска, Чернигова и других городов Украины...


19.02.2009
10 февраля в Киеве состоялась пресс-конференция, посвященная итогам деятельности компании "DiaWest – Комп’ютерний світ" в 2008 году.


12.02.2009
С 5 февраля 2009 г. в Киеве начали работу учебные курсы по использованию услуг "электронного предприятия/ учреждения" на базе сети информационно-маркетинговых центров (ИМЦ).


04.02.2009
29 января 2009 года в редакции еженедельника "Computer World/Украина" состоялось награждение победителей акции "Оформи подписку – получи приз!".


29.01.2009
22 января в Киеве компания "МУК" и представительство компании Cisco в Украине провели семинар для партнеров "Обзор продуктов и решений Cisco Small Business"

 

 
 
Copyright © 1997-2008 ИД "Комиздат".