Подписаться  на наше издание быстро и дешевле чем где-либо Вы можете прямо сейчас! Подписаться! 

 

 

Перевести документ из компьютера на бумагу – задача принтера. А обратно, с бумаги в компьютер, – сканера и специального программного обеспечения – OCR-системы.

СИСТЕМЫ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ символов (Optical Character Recognition – OCR) предназначены для автоматического ввода в компьютер печатных документов. Изначально изображение, полученное со сканера или цифровой фотокамеры, – это не редактируемый текст, а всего лишь растровое изображение.

OCR-система делит эту картинку на фрагменты, выделяет в них символы и распознает их. Мы решили сравнить функциональность и скорость работы наиболее распространенных у нас OCR-систем, поддерживающих кириллицу, – ABBYY FineReader 8.0 Professional и OmniPage 15 Professional.

 

OSR-ПОЛИГЛОТ

 

Каждая следующая версия FineReader быстрее распознает все более сложные тексты. В последней, восьмой, версии "порог чувствительности" снизился до разрешения 200 dpi. Благодаря этому появилась возможность, во-первых, ускорить сканирование документов, а во-вторых, распознавать тексты, снятые цифровой фотокамерой с разрешением от пяти мегапикселей. Другими словами, можно, например, прийти в библиотеку, отснять нужные страницы и пойти домой, минуя очередь на ксерокопирование.

Из остальных функций, появившихся в FineReader 8, следует отметить интеграцию в Microsoft Office, дополнительную утилиту для распознавания копий экрана Screenshot Reader и встроенную обучающую систему для начинающих пользователей.

 

 

Установка FineReader максимально автоматизирована. В стандартном режиме от пользователя требуется лишь выбрать папку, в которую будет установлена программа, и язык интерфейса. При выборочной установке можно отказаться от инсталляции компонентов, которые вам не нужны. Последний этап установки FineReader – активация системы. Это можно сделать с помощью дискеты, входящей в комплект поставки, по электронной почте или через интернет. Еще несколько лет назад наиболее распространенным был первый вариант, однако сейчас флоппи-дисководы постепенно уходят в прошлое, и пользователям все чаще приходится активировать продукты по сети.


Интерфейс FineReader хорошо продуман с точки зрения эргономики. Возможность переключения системы меню на русский и украинский языки выгодно отличает программу от американского конкурента. Кнопки основных режимов работы с большими пиктограммами и подписями вынесены на отдельную панель. Первая из этих кнопок, Scan&Read, запускает мастер сканирования и распознавания текстов. С его помощью можно быстро отсканировать, открыть, распознать и проверить орфографию текста. Затем другой мастер, сохранения результатов, помогает сохранить документ или отдельные страницы в формате doc, xls или pdf, отправить по электронной почте или скопировать в буфер обмена. Таким образом, распознавание страницы сводится буквально к нескольким щелчкам мыши.


Точки и полосы
Чем выше качество изображения - то ли отпечатанного, то ли экранного, - тем проще распознавать содержащийся в нем текст. Численно этот параметр принято оценивать количеством точек на дюйм (dots per inch - dpi): поскольку компьютерные мониторы и цифровые печатающие устройства разбивают изображение на строки, а каждую строку -на точки, то чем больше таких точек приходится на единицу длины (по традиции - дюйм), тем выше качество изображения. Для отпечатанных изображений стандартным считается качество 300 dpi. К экранной графике требования значительно ниже - 75 dpi. Таким образом, для распознавания текста из копий экрана требуются более сложные программные алгоритмы, чем для распознавания даже плохо отпечатанного текста.

 

ФОРМАТ НА ЛЮБОЙ ВКУС


В отношении разрешения распознаваемых изображений OCR-система OmniPage 15 производства компании Nuance Software несколько требовательнее, чем FineReader: минимально допустимое для нее разрешение составляет 300 dpi, а рекомендуемое – 400 dpi. При сканировании документа с минимальным разрешением есть риск получить недостоверный текст с большим количеством ошибок, которые придется исправлять вручную.


Установка программы стандартная: от пользователя требуется выбрать папку и способ установки – обычный либо выборочный. При первом запуске OmniPage нужно активировать через интернет. Если зарегистрироваться в Сети, то можно будет покупать следующие версии программы со значительной скидкой.


По сравнению с предыдущими версиями, интерфейс OmniPage 15 стал гораздо приятнее на вид. Правда, его языком по-прежнему остается английский. Язык распознаваемого текста выбирается не на панели инструментов, как в FineReader, а в настройках программы.

 


Кнопки основных функций здесь тоже выполнены в виде больших пиктограмм, под которыми располагаются меню со списками стандартных возможностей. Мастера сканирования и распознавания в OmniPage нет – программа автоматически фрагментирует и распознает изображение, используя заранее сделанные настройки. Распознанный текст можно сохранить в различных стандартных форматах: html, разных версиях Microsoft Word и Excel, WordPerfect, xml, pdf и др. В целом, все просто, разве что перед сканированием и распознаванием приходится серьезно работать с предварительной настройкой программы.


В комплекте с OmniPage поставляется несколько полезных утилит. В частности, PDF Converter позволяет быстро и удобно преобразовывать файлы формата PDF в редактируемые форматы: doc, rtf, wpd, xls. Упрощенный вариант утилиты PDF Create! выполняет обратное преобразование: превращает практически любой текстовый или графический файл в формат PDF.

 

СКОРОСТЬ И КАЧЕСТВО РАСПОЗНАВАНИЯ

 

Сравнивая OCR-системы, мы обращали внимание не только на скорость, но и на качество распознавания текстов. Чем меньше ошибок в распознанном тексте, тем меньше времени уйдет на доработку документа. Для тестирования использовалось несколько документов на русском языке и один на английском.


Как видно из таблицы, FineReader 8.0 обеспечивает высокое качество и достаточную скорость распознавания различных документов. OmniPage, будучи пакетом бельгийской разработки, в документах, написанных на русском языке, допустил хоть и не намного, но все же больше ошибок, чем FineReader. По времени распознавания русского текста OmniPage также несколько отстает. Зато эта программа заметно превосходит FineReader в распознавании англоязычных документов как по качеству, так и по скорости.


В целом, OmniPage лучше даются комбинированные изображения с большим количеством изображений. Программа эффективнее отделяет текст от графики. FineReader же, напротив, лучше работает с чистым текстом. Впрочем, это касается скорости, а отнюдь не качества.


Итак, для того чтобы система распознавания хорошо работала с текстом на определенном языке, она должна создаваться людьми, хорошо знакомыми с этим языком. Для распознавания документов, написанных на русском, наиболее подходящим выбором будет FineReader. OmniPage в этом отношении немного, но все же уступает, хотя с документами, написанными на английском языке, эта система справляется без проблем. Кроме того, нельзя не учитывать возможность быстрой настройки FineReader на распознавание множества других языков (в том числе и украинского), а также широкую доступность у нас этого пакета. Таким образом, FineReader по-прежнему остается лидирующей OCR-системой.

 

2006.08.09
19.03.2009
В IV квартале 2008 г. украинский рынок серверов по сравнению с аналогичным периодом прошлого года сократился в денежном выражении на 34% – до $30 млн (в ценах для конечных пользователей), а за весь календарный год – более чем на 5%, до 132 млн долл.


12.03.2009
4 марта в Киеве компания Telco провела конференцию "Инновационные телекоммуникации", посвященную новым эффективным телекоммуникационным технологиям для решения задач современного бизнеса.


05.03.2009
25 февраля в Киеве компания IBM, при информационной поддержке "1С" и Canonical, провела конференцию "Как сохранить деньги в условиях кризиса?"


26.02.2009
18-19 февраля в Киеве прошел юбилейный съезд ИТ-директоров Украины. Участниками данного мероприятия стали ИТ-директора, ИТ-менеджеры, поставщики ИТ-решений из Киева, Николаева, Днепропетровска, Чернигова и других городов Украины...


19.02.2009
10 февраля в Киеве состоялась пресс-конференция, посвященная итогам деятельности компании "DiaWest – Комп’ютерний світ" в 2008 году.


12.02.2009
С 5 февраля 2009 г. в Киеве начали работу учебные курсы по использованию услуг "электронного предприятия/ учреждения" на базе сети информационно-маркетинговых центров (ИМЦ).


04.02.2009
29 января 2009 года в редакции еженедельника "Computer World/Украина" состоялось награждение победителей акции "Оформи подписку – получи приз!".


29.01.2009
22 января в Киеве компания "МУК" и представительство компании Cisco в Украине провели семинар для партнеров "Обзор продуктов и решений Cisco Small Business"

 

 
 
Copyright © 1997-2008 ИД "Комиздат".