Этот формат, разработанный компанией Adobe Systems Incorporated, удобен по многим причинам. Вот основные из них.

  • Возможность создания форматированных, иллюстрированных гипертекстовых документов, которые всегда выглядят одинаково, независимо от компьютера и операционной системы.
  • Возможность защиты авторских прав при помощи пароля.
  • Переносимость: приложение Acrobat Reader для чтения PDF-файлов выпускается для всех популярных платформ  - Windows, UNIX, Macintosh.
  • Достаточно высокая степень сжатия. Текстовая часть документов сжимается по arj-подобному алгоритму, графическая - по алгоритму JPEG. С другой стороны, PDF-документы обладают известными недостатками, которые отчасти являются следствием их достоинств.
  • Ограниченные возможности просмотра. Для просмотра документов этого формата необходимо специальное приложение - Adobe Acrobat Reader*. Правда, бесплатное. Версия 4.05 для Windows находится по адресу ftp://ftp.adobe.com/pub/adobe/acrobatreader/win/4.x/rs405eng.exe и занимает 6,5 Мб. Или дорогие профессиональные издательские пакеты вроде Corel DRAW или Illustrator. Текстовые процессоры PDF “не понимают”, что невыгодно отличает этот формат от, например, формата документов MS Word.
  • Еще более ограниченные возможности редактирования. Редактор PDF - Adobe Acrobat - вещь далеко не дешевая. По данным сайта www.adobe.com, последняя версия этого продукта, Adobe Acrobat 5.0, стоит $249.

*Для UNIX есть еще программа Xpdf.

 

Поэтому у многих, кто сталкивается с документами PDF, возникает естественное - а если документ не “запаролен”, то и законное - желание преобразовать их в формат, более удобный для дальнейшей обработки - TXT, DOC или HTML.

 

Домашний рецепт

 

Есть такой анекдот: “Что такое бизнес по-русски? - Украсть ящик водки, водку вылить, бутылки сдать, а деньги пропить”. Нечто подобное мне довелось услышать применительно к преобразованию PDF-документов: “Берем этот <зачеркнуто цензурой> PDF, распечатываем на принтере, кладем под сканер и распознаем”. Смех смехом, а вариант вполне жизнеспособный, особенно если

  • а) вы не очень расстроитесь, если когда в результатеот всех этих маневров пострадает качество иллюстраций;
  • б) вам не придется специально для этого покупать принтер, сканер и OCR-программу;
  • в) за израсходованный тонер и бумагу заплатит кто-нибудь другой.

Впрочем, этот способ перестает быть смешным, когда понимаешь, что вообще-то можно обойтись без принтера и без сканера. Правда, OCR-программа все равно понадобится. Причем, хорошая. А о качестве иллюстраций вообще лучше сразу забыть. Но текст распознается вполне прилично. Мы, например, экспериментировали с FineReader 5 и получили весьма неплохие результаты даже в таких намеренно неблагоприятных условиях:

  • страница в окне Reader’а отображается без увеличения (режим Fit Width);
  • разрешение монитора - 800х600;
  • копии экрана сохранялись в Windows Paint, в черно-белом BMP.

При этом обнаружилась любопытная деталь: FineReader, естественно, сетуя на недостаточное разрешение картинки, предлагал увеличить его хотя бы до 300 dpi. Но как раз этого-то делать и не следует (рис. 1). Если оставить разрешение без изменений, результат получается гораздо лучше (рис. 2). Правда, если текст будет мельче, а диагональ монитора меньше, то увеличение понадобится. И это нехорошо: ведь чем сильнее увеличение, тем больше копий экрана придется сделать.

 


Рис. 1. Распознавание копии экрана после того, как ее разрешение, по “совету” FineReader’а, увеличили до 300 dpi

 


Рис. 2. Распознавание этой же копии экрана, если оставить все, как есть

 

Как видим, такое доморощенное преобразование PDF в нечто редактируемое вполне сносно работает. Хотя и варварски. Но есть и цивилизованные способы добиться того же самого.

 

Что можно получить бесплатно

 

Во-первых, собственно текст PDF-документа. Здесь все очень просто: выделяем то, что нам нужно, в Acrobat Reader и через буфер обмена переносим в Word. Правда, при копировании русского текста возможны проблемы с кодировками, но это уж - как везде*. Сохраняются даже некоторые элементы форматирования, такие как размер и начертание шрифта. Об абзацных отступах, а тем более о колонках и таблицах, придется забыть. А также обо всех красивых надписях, выполненных в виде картинок (рис. 3). Но есть программы, позволяющиеей достичь большего (табл. 1). Причем бесплатно - если не считать времени, затраченного на их “выкачивание” из интернета.

 

* Если ничего другого не помогает, можно воспользоваться программой-перекодировщиком, например “Штирлицем”  (http://www.lipetsk.ru/~cpage/SHTIRL3!.EXE).

 

Рис. 3. Из Acrobat Reader через буфер обмена можно перенести текст, даже сохранив форматирование символов, но не абзацев. И уж конечно, не иллюстрации.

 

Таблица 1. Бесплатные утилиты для преобразования PDF-документов в редактируемый формат

 

PDFtoHTML

GetText

 Acrobat Access

Разработчик

 Георгий Овчаров, Райнер Дорч (Rainer Dorsch)

Kryloff Technologies, Inc.

 Adobe Systems Incorporated

Версия

0.30

-

4.05

Объем архива

 523 кб

 120 кб

1.,3 Мб

Адрес архива  http://www.ra.informatik.uni-stuttgart.de/~gosho/pdftohtml/Download/binary/pdftohtml_0_31.exe  http://www.kryltech.com/download/gettext.zip

 ftp://ftp.adobe.com/pub/adobe/acrobatreader/win/4.x/plugins/accs405.exe

Интерфейс

 командная строка

 командная строка

Команды Export Document to HTML и Export Document to Text в менюб File (Acrobat Reader)

Формат выходных

файлов

 HTML

текстовый

текстовый, HTML

Сохранение

форматирования

 частично, если указать ключ -c

нет

нет

Сохранение

иллюстраций

частично, без ключа -с

нет

нет

Примечания

 из Windows лучше запускать в режиме MS-DOS Promt.

Русский текст не преобразуется

Некорректное преобразование русского текста

Правильно преобразует русский текст



Таблица 2. Ключи утилиты PDFtoHTML

 

Ключ Описание
-f <номер страницы> Номер первой преобразуемой страницы
-l <номер страницы> Номер последней преобразуемой страницы
-q Не выводить на экран сообщений, в том числе об ошибках
-h[elp] Вывод справки
-p Заменить веб-адреса гиперссылками
-c Создать сложный документ
-i Пропустить иллюстрации
-noframes  Не создавать фреймы
-stdout Вывод на стандартное устройство
-zoom [<раз>]  Изменить масштаб исходного документа (по умолчанию в 1.,5 раза  -zoom 1.5)
-xml Подготовить выходной документ для последующей обработки XML

 

А вот возможностей у нее довольно много - судя по описанию (табл. 2). Но соответствует ли это действительности? Вправду ли PDFtoHTML заменяет адреса в тексте гиперссылками? И сохраняет картинки? И создает многофреймовые страницы - интересно, из чего?.. Проверим.

 

Итак, эксперимент номер один. Берем многостраничное иллюстрированное руководство к мультимедийному центру и преобразуем его в HTML. Со ссылками, фреймами и всем остальным, что нам обещает справка PDFtoHTML. И смотрим, что получилось.

 

А получилось три HTML-файла и куча JPEG-картинок к ним. Все в кучу, в одном каталоге. Зато потом их все вместе можно безболезненно копировать куда угодно, и не придется лезть в HTML-код и менять там ссылки. Действительно, фреймы, как и было обещано. Каждая страница PDF-документа в отдельном фрейме, плюс слева панель-оглавление (рис. 4). Пожалуй, это удобно. HTML-код довольно “чистый”, без излишеств, которые туда любят вставлять редакторы вроде FrontPage. Но говорить о сохранении форматирования было бы слишком смело. Скорее сохранились следы форматирования - абзацы и кое-где полужирный шрифт в заголовках. Разумеется, в HTML-коде заголовки не размечены. Пропали и таблицы. Зато - ура! - сохранились гиперссылки. И рисунки... Правда, не совсем на своих местах. Обтекание текстом пропало, и теперь каждый рисунок занимает отдельную строку.

 

Вообще-то от фреймов можно и отказаться. Тогда получим один HTML-документ, но почему-то на бордовом фоне. А если поставить ключ -с (“сложный документ”), то выясняется, что большую часть форматирования вполне можно сохранить. Ценой гораздо более сложного HTML и... потери картинок (см. рис. 4).

 

 

Рис. 4. Результаты работы утилиты PDFtoHTML в разных режимах

 

Назначение ключа zoom (масштабирование) выяснить так и не удалось: в выходных HTML-файлах, полученных с его использованием, изменений не наблюдалось.

 

Зато при попытке преобразовать русскоязычный PDF нас ждало полное разочарование. Русского языка эта утилита “не понимает” вообще. Запятые и черточки, которые получаются вместо русских букв, перекодировке не поддаются. Будем надеяться, что с другими утилитами нам повезет больше...

 

GetText

 

Эта утилита еще проще первой. У нее вообще нет никаких ключей. Только входной и выходной файлы. (Кстати, не забудьте указать последний, иначе она вообще работать не будет.) Собственно, ее назначение - “вытягивать” текст из документов различных форматов , в том числе и из PDF. Чем она лучше обычного переноса через буфер обмена? Например тем, что благодаря ей можно осуществлять преобразование таких файлов в пакетном режиме. А еще тем, что если у вас есть эта утилитка объемом всего-то 120 кб, то для прочтения сложных документов вам не нужен ни Acrobat Reader, ни Internet Explorer, ни Word, ни Windows... Да, а как у нее с русским текстом? Вначале результаты выглядели обнадеживающими. Правда, кодировка с самого начала показалаись странноватой. “Штирлиц” трудился над ней битый час, но расшифровать так и не смог.

 

Acrobat Access

 

Acrobat Access - “родной” модуль производства компании Adobe, который встраивается в Acrobat Reader для того чтобы пользователь мог преобразовать PDF-документ в веб-страницу или, на худой конец, “вытянуть” оттуда текст. Присутствие Acrobat Access в Reader'e проявляется наличием команд Export Document to HTML и Export Document to Text в меню File. Первое, что бросается в глаза - то, что HTML-документ у Acrobat Access оформлен еще более по-спартански, чем у PDFtoHTML. От исходного форматирования остались разве что абзацы. Так что гипертекстовый вариант мало чем отличается от просто текстового. Зато - о чудо! - сохранился русский текст. Весь. Полностью. В нормальной кодировке.

 

За что придется заплатить

 

Как всегда, за качество. Мы рассмотрим семейство модулей для преобразования PDF-документов, выпущенных производства компаниейи BCL Computers - Magellan, Drake, Freebird и Jade (табл. 3). Все это коммерческие продукты стоимостью $200 каждый, с 30-дневными демоверсиями. Причем устанавливаются они не как самостоятельные приложения и не как дополнения к Acrobat Reader, а как модули полного продукта Adobe Acrobat, который и сам по себе недешев ($249 за последнюю, 5-ю версию).

 

Таблица 3. Коммерческие модули для преобразования PDF-документов


Magellan

Drake

Freebird

Jade

Версия

4.2

4.0

4.0

4.0

Объем архива

1.8 Мб

1.2 Мб

1.3 Мб

1.4 Мб

Адрес архива

ftp://216.216.8.134/magellan42demo.exe

ftp://216.216.8.134/drake40demo.exe

ftp://216.216.8.134/freebird40demo.exe

ftp://216.216.8.134/jade40demo.exe

Интерфейс

 команды File>Export>HTML, Plug-Ins>Convert to HTML

команды File>Export>RTF, Plug-Ins>Convert to RTF

 команды File>Export>Image, Plug-Ins>Export Image

меню Plug-Ins>BCL Jade

Формат выхода файлов

HTML версий 3 и 4

RTF

TIFF, BMP, JPEG

 графика -  BMP, текст - ANSI, OEM, Unicode, RTF

Сохранение форматирования

почти полностью

почти полностью

-

-

Сохранение иллюстраций

да

да

-

-

Примечания

 некорректно конвертируется русский текст

 некорректно конвертируется русский текст

демо-версия позволяет преобразовать за один запуск только одну страницу

для правильного преобразования русского текста нужно использовать форматы Unicode, ANSI или OEM


 
Magellan преобразует PDF-документы в HTML-страницы, Drake - в формат RTF, Freebird - в растровые изображения страниц. Модуль Jade позволяет при помощи инструмента L_Jadebt.tif “выкусить” фрагменты страницы, лучше однородные - картинки, текст, таблицы - и преобразовать их соответственно в графический или текстовый файл.

 

Все три утилиты имеют массу дополнительных параметров. Особенно много их у Magellan. Этот модуль позволяет выбрать, какие части исходного документа нужны в готовом файле, а какие можно пропустить.; При подготовке PDF-документа к преобразованию в веб-страницу можно указать ключевые слова и аннотацию, а также задать многие другие параметры.

 

Здесь, как и в случае с бесплатными утилитами, русский текст снова стал камнем преткновения. Привести в нормальный вид результаты работы Drake так и не удалось. C Magellan дело обстоит получше: текст, безусловно, испорчен, но далеко не безнадежно. По крайней мере, “Штирлиц” его успешно перекодирует. Лучше всего задача удалась Jade. Если сохранять текст в любом формате, кроме RTF, то все в порядке.

 

Не знаю, как вам, а мне эти утилиты с самого начала показались чересчур дорогими для своей задачи. Давайте подсчитаем: сколько PDF-страниц можно перевести в редактируемый текстовый или гипертестовый формат, воспользовавшись “домашним рецептом”, то бишь при помощи принтера и сканера, за сумму, равную стоимости одного такого модуля? Предположим, что сканер и OCR-программа у нас есть, а распечатку для сохранения качества иллюстраций мы будем делать на хорошем лазерном принтере в копи-центре. Пусть такая распечатка обойдется нам в $1 за страницу. Тогда за $200, что составляет стоимость BCL Magellan, можно будет перевести из PDF в HTML два полных номера “К + П”, и еще $40 останется. Или не останется, если в копи-центре цены выше, чем мы предположили. Но не забывайте, что Magellan, как и остальные модули BCL, “вешается” на Adobe Acrobat, который сам по себе стоит $249! Так что еще вопрос, какой метод лучше - фирменный или “домашний”.

 

Автор благодарит Илью ПОЛЕЩУКА за предоставленную полезную информацию.

2004.04.09
19.03.2009
В IV квартале 2008 г. украинский рынок серверов по сравнению с аналогичным периодом прошлого года сократился в денежном выражении на 34% – до $30 млн (в ценах для конечных пользователей), а за весь календарный год – более чем на 5%, до 132 млн долл.


12.03.2009
4 марта в Киеве компания Telco провела конференцию "Инновационные телекоммуникации", посвященную новым эффективным телекоммуникационным технологиям для решения задач современного бизнеса.


05.03.2009
25 февраля в Киеве компания IBM, при информационной поддержке "1С" и Canonical, провела конференцию "Как сохранить деньги в условиях кризиса?"


26.02.2009
18-19 февраля в Киеве прошел юбилейный съезд ИТ-директоров Украины. Участниками данного мероприятия стали ИТ-директора, ИТ-менеджеры, поставщики ИТ-решений из Киева, Николаева, Днепропетровска, Чернигова и других городов Украины...


19.02.2009
10 февраля в Киеве состоялась пресс-конференция, посвященная итогам деятельности компании "DiaWest – Комп’ютерний світ" в 2008 году.


12.02.2009
С 5 февраля 2009 г. в Киеве начали работу учебные курсы по использованию услуг "электронного предприятия/ учреждения" на базе сети информационно-маркетинговых центров (ИМЦ).


04.02.2009
29 января 2009 года в редакции еженедельника "Computer World/Украина" состоялось награждение победителей акции "Оформи подписку – получи приз!".


29.01.2009
22 января в Киеве компания "МУК" и представительство компании Cisco в Украине провели семинар для партнеров "Обзор продуктов и решений Cisco Small Business"

 

 
 
Copyright © 1997-2008 ИД "Комиздат".