Подписаться  на наше издание быстро и дешевле чем где-либо Вы можете прямо сейчас! Подписаться! 

 

 

Формат PDF широко применяется для передачи электронных буклетов, проспектов, статей. Считается, что он "окончательный", то есть предназначен для чтения, а не для редактирования. Но это лишь в теории.


PDF(Portable Document Format) – удобный и популярный формат для передачи документов: с одной стороны, компактный, а с другой, сохраняет все элементы электронного текста: гиперссылки, колонки, шрифты, иллюстрации. PDF-файлы можно защищать паролями, их удобно хранить в электронных архивах. По статистике, каждый десятый документ, опубликованный в интернете, сохранен именно в этом формате. Благодаря единому и общедоступному приложению для их чтения – Acrobat Reader – PDF-файлы открываются и отображаются одинаково на всех компьютерах.


Для создания таких документов существует множество программ – от "родного" Adobe Acrobat до различных бесплатных утилит. Сегодня считается "хорошим тоном" встраивать функции создания PDF-документов в офисные пакеты, и, конечно же, в последних версиях MS Office и OpenOffice такие функции есть. Но иногда "по прибытии на место" упаковку приходится разбирать, чтобы получить оттуда исходный текст и графику, желательно с сохранением форматирования, – для коррекции, перевода, вставки в другие документы (разумеется, с разрешения автора исходного текста).


БРАТЬЯ-АКРОБАТЫ


Основная программа для создания и редактирования PDF-документов принадлежит, разумеется, разработчику этого формата, компании Adobe. (Не следует путать полнофункциональный редактор Acrobat с распространяемой бесплатно программой для чтения PDF-документов Acrobat Reader.) Эта большая, дорогая и сложная программа позволяет делать с текстами все - создавать PDF-файлы, редактировать их, вставлять комментарии, извлекать форматированный текст и графику.

 

Из Acrobat Reader тоже можно скопировать текст. Однако при этом возникает множество неприятных побочных эффектов: текст копируется, жестко разбиваясь на строки; гарнитура и цвет шрифта сохраняются, однако колонки, таблицы и другие элементы форматирования пропадают, как и графическое оформление.


Таким образом, редактором Acrobat имеет смысл пользоваться только тем, кто по роду деятельности часто создает сложные PDF-документы, а программой Acrobat Reader - тем, кому нужен только "чистый текст", да и то немного и изредка.

 

СО СКАНЕРА И ИЗ PDF

 

ABBYY PDF Transformer 2.0 позволяет не только преобразовывать PDF-файлы в редактируемые форматы, но и создавать PDF-документы практически из любого приложения - лишь бы в нем была функция печати.


В отличие от большинства программ, в окне PDF Transformer отсутствует привычная строка команд. Вместо этого окно делится на две области: в правой находится панель для настройки режимов работы программы; в левой размещается рабочий PDF-документ и панель кнопок для выполнения основных операций.


С помощью этих кнопок можно, в частности, выбрать для преобразования отдельные страницы или фрагменты страниц исходного документа, а также разметить текстовые области, картинки и таблицы -автоматически или вручную. Эта операция похожа на аналогичную процедуру, выполняемую при распознавании текста в ABBYY FineReader, и позволяет более точно сохранить внешний вид документов со сложным оформлением.


Даже если в PDF-файле нет текстового слоя (области, содержащей текст документа), - такие файлы бывают получены путем преобразования в PDF, например, отсканированных страниц - ABBYY PDF Transformer позволяет создать редактируемый текстовый документ, распознав изображение с помощью встроенных в программу алгоритмов OCR.


Готовый документ можно сохранить с таким же оформлением, как в оригинале, или как колонку текста (с картинками или без). При сохранении в формате Microsoft Excel можно сохранить только таблицы, проигнорировав сопровождающий их текст.


Впрочем, не любые символы исходного PDFдокумента автоматически корректно преобразуются в текст. В таких случаях лучше представить их в виде графических элементов (режим "Как изображение"). Эти символы будут распознаны OCR-алгоритмом.


Кроме распознавания PDF-документов, PDF Transformer позволяет создавать PDF-файлы из электронных текстов Microsoft Word, таблиц Excel, презентаций PowerPoint, диаграмм Visio (для этого на компьютере должен быть установлен MS Office) и вэб-страниц HTML, причем, в отличие от Acrobat, это не требует от пользователя специальной подготовки. Создавать PDF-документы можно как из самого Transformer, так и с помощью кнопок и команд, которые по желанию пользователя встраиваются в приложения Microsoft Office и контекстное меню Windows Explorer при установке PDF Transformer. Также это приложение создает "виртуальный принтер" PDF-XChange for ABBYY PDF Transformer: если "напечатать" на нем документ из любого приложения, этот документ будет преобразован в формат PDF.


При создании PDF-документа можно выбрать его размер (маленький - для отправки по электронной почте и публикации в интернете, средний - для просмотра на экране и черновой печати, максимальный - для печати с высоким качеством), установить пароль на открытие, печать и редактирование файла.


При создании как редактируемых, так и PDF-документов сохраняются гипертекстовые ссылки, а также вспомогательная информация о документе, такая как заголовок, автор, тема и ключевые слова.


Пробная версия ABBYY PDF Transformer 2.0 работает 15 дней со дня первого запуска. За это время можно преобразовать не более 50 страниц. Количество PDF-файлов, создаваемых во время испытательного периода, не ограничено, но все они имеют специальную отметку. По истечении 5-дневного срока либо если количество созданных страниц превышает 50, программа перестает работать.


Известный OCR-пакет ABBYY FineReader тоже хорошо подходит для преобразования PDF-документов. В принципе, годится любая версия: достаточно распечатать текст, положить его под сканер и распознать - лишь бы не подвело качество исходного PDF. Но после выхода версии 6.0 необходимость в сканере отпала: с тех пор FineReader распознает PDF-документы и сохраняет их в форматах основных офисных документов. Однако поскольку этот пакет изначально предназначен для выполнения более сложных операций - оптического распознавания печатных документов, - он и стоит значительно (больше, чем в два раза) дороже, чем Transformer.


МАСТЕР ПО "РАЗДЕЛКЕ" PDF

 

Программа Solid Converter PDF позволяет преобразовывать PDF-файлы в редактируемые документы и наоборот. При этом в документах, полученных из PDF-файлов, сохраняются колонтитулы, таблицы и другие элементы верстки, а также графика и внешние гиперссылки. Однако ссылки на закладки внутри документа распознаются не всегда. Кроме того, в полученном документе Word иногда попадаются двойные пробелы, либо в интервалах между словами стоят не пробелы, а табуляция.


Solid Converter PDF также распознает электронные формы, поля которых преобразуются в редактируемые надписи Word. Программа может преобразовать как весь файл PDF, так и отдельные страницы.


Для того чтобы выбрать свойства документа, создаваемого на основе PDF-файла, можно воспользоваться мастером, содержащим подробные пошаговые инструкции, пояснения и иллюстрации. В частности, пользователю предлагается выбрать один из четырех основных режимов: "Достоверный", "Последовательный", "Текст" или "Реалистичный". В режиме "Достоверный" полностью восстанавливается конфигурация страницы, колонки, форматирование и порядок следования текста, рисунки. В режиме "Последовательный" точная конфигурация страницы не воссоздается - сохраняются только рисунки, порядок следования текста и разбиение на абзацы. В режиме "Текст" восстанавливается текст без форматирования. В режиме "Реалистичный" создается документ, который выглядит в точности так, как исходный PDF-файл.


В программе также существует несколько вариантов восстановления изображений и их привязки к страницам готового документа. Изображения можно полностью удалить, использовать режим автоматической привязки, привязки к абзацу или странице. Для сохранения изображений можно выбрать формат JPG, BMP, PNG, GIF, TIF либо предоставить программе автоматически выбирать наиболее подходящий формат. Кроме того, программа позволяет удалить из готового текста колонтитулы -эти элементы верстки, часто присутствующие в PDF-файлах, обычно не нужны в документах Word и только мешают их редактировать. Отдельные режимы Solid Converter PDF позволяют извлечь из исходного PDF-файла только изображения или только таблицы.


На случай, если в файле PDF отсутствует информация о кодировке текста, в программе есть функция оптического распознавания.


Для автоматического выполнения типичных задач программу Solid Converter PDF можно запускать в режиме командной строки. Для этого используется файл InSolid-ConverterPDF.exe из папки программы.


Solid Converter PDF существует в двух версиях: Standard и Professional. Standard работает только из среды Microsoft Word и Microsoft Excel; версия Professional поддерживает все документы со стандартной функцией печати.


Пробная версия работает 15 дней и преобразует 10% документа, но не более 10 страниц.

 

Программа PDF2Word, как и следует из ее названия, преобразует PDF-файл в документ MS Word, сохраняя текст, изображения и элементы форматирования. Дополнительные приложения, такие как Adobe Acrobat, Acrobat Reader или Microsoft Word, для ее работы не требуются.


При создании документа Word можно до некоторой степени регулировать расстояние между строками и выбирать для преобразования отдельные страницы документа. При желании можно извлечь из PDF-файла только текст, исключив графику, - всю или только иллюстрации. Однако в результирующем документе Word сохраняется жесткое разделение текста на строки и жесткий интервал между строками, из-за чего некоторые надписи наползают друг на друга.


Для автоматизации работы программы можно воспользоваться утилитой командной строки, создав на ее основе BAT-файл.


Программа допускает пакетное преобразование, однако пробная версия обрабатывает файлы только по одному, и только первые 5 страниц каждого документа. После 100 запусков пробная версия перестает работать.


На сайте разработчика есть аналогичные программы для преобразования PDF-документов в формате HTML, TXT и TIFF.


ТОЛЬКО ТЕКСТ

 

Программа PDF Plain Text Extractor (P2T) извлекает из PDF-документов "чистый" текст, игнорируя всякое форматирование и графику. Зато для ее работы этой программы не требуется ни Adobe Acrobat, ни какие-либо другие приложения. Результат сохраняется в простом текстовом файле, в кодировке UTF-8.


Окно PDF Plain Text Extractor делится на четыре панели: вверху слева размещается дерево папок, внизу слева - список PDF-файлов, находящихся в текущей папке, вверху справа - список PDF-файлов, отобранных для извлечения текста, и внизу справа - свойства текущего PDF-файла. Файлы, отобранные для преобразования, можно обрабатывать по одному, все сразу или только некоторые из них. Список выбранных для преобразования файлов можно сохранить и использовать при последующих запусках программы.


Следует учитывать, что программа не обрабатывает зашифрованные PDF-документы, а также документы, в которых текст находится не на текстовом слое, а представлен в виде графических изображений.


Пробная версия работает в течение 15 дней и обрабатывает только первые 5 страниц каждого документа. Число обрабатываемых файлов не ограничено.

 

PDF И КИРИЛЛИЦА

 

Извлечение информации из PDF-файлов и приведение ее в редактируемый вид - достаточно сложная процедура, и хорошие программные продукты этого типа стоят недешево. Поэтому к выбору того или иного приложения надо относиться со всей ответственностью.


Здесь главное, на что следует обратить внимание, - поддержка кириллицы. Дело в том, что далеко не все программные продукты, работающие с PDF-документами, корректно обрабатывают находящиеся в них русские и украинские буквы, заменяя их пробелами, точками и другим символьным "мусором". В результате хорошая во всех остальных отношениях программа оказывается совершенно бесполезной. Поэтому, выбирая PDF-конвертер, следует в первую очередь обращать внимание на этот аспект, и только затем - на сохранение различных элементов форматирования.

 

1 На сайте разработчика есть аналогичные программы для преобразования
в HTML, TXT и TIFF

2006.10.03
19.03.2009
В IV квартале 2008 г. украинский рынок серверов по сравнению с аналогичным периодом прошлого года сократился в денежном выражении на 34% – до $30 млн (в ценах для конечных пользователей), а за весь календарный год – более чем на 5%, до 132 млн долл.


12.03.2009
4 марта в Киеве компания Telco провела конференцию "Инновационные телекоммуникации", посвященную новым эффективным телекоммуникационным технологиям для решения задач современного бизнеса.


05.03.2009
25 февраля в Киеве компания IBM, при информационной поддержке "1С" и Canonical, провела конференцию "Как сохранить деньги в условиях кризиса?"


26.02.2009
18-19 февраля в Киеве прошел юбилейный съезд ИТ-директоров Украины. Участниками данного мероприятия стали ИТ-директора, ИТ-менеджеры, поставщики ИТ-решений из Киева, Николаева, Днепропетровска, Чернигова и других городов Украины...


19.02.2009
10 февраля в Киеве состоялась пресс-конференция, посвященная итогам деятельности компании "DiaWest – Комп’ютерний світ" в 2008 году.


12.02.2009
С 5 февраля 2009 г. в Киеве начали работу учебные курсы по использованию услуг "электронного предприятия/ учреждения" на базе сети информационно-маркетинговых центров (ИМЦ).


04.02.2009
29 января 2009 года в редакции еженедельника "Computer World/Украина" состоялось награждение победителей акции "Оформи подписку – получи приз!".


29.01.2009
22 января в Киеве компания "МУК" и представительство компании Cisco в Украине провели семинар для партнеров "Обзор продуктов и решений Cisco Small Business"

 

 
 
Copyright © 1997-2008 ИД "Комиздат".