Еще год назад я был твердо уверен, что лучший формат для книг и статей – ПДФ. Только с покупкой электронной читалки я понял, как ошибался. Теперь качаю ПДФ лишь когда других вариантов не остается.

Но дело не только в читалке. Немного подумав, я выделил весомые недостатки формата. Разберемся, что с ним не так.

Формат ПДФ – потомок устаревшего языка Postscript, за изобретение которого инженеры Адоби получили очень престижную премию. Дело в том, в те времена не было единого правила, по которому принтер печатал документ.

Postscript был декларативным языком с инструкциями, что и как печатать. Даже самый сложный дизайн стало возможным перевести в набор команд и отправить на принтер. Поскольку Postscript – это текст, программа, которая не могла выдать графический файл, сохраняла .ps-документ, составленный по шаблону.

ПДФ расширил возможности Постскрипта. На текущий момент существует девятое поколение формата (1.9). Долгое время пользователям компьютеров и планшетов было необходимо ставить Adobe Reader, т.к. в системе не было встроенной программы.

К счастью, времена изменились. Сегодня просмотреть ПДФ можно стандартной программой даже в Линуксе. Все браузеры умеют отображать документ как страничку.

Основное достоинство ПДФ в том, что он хранит и растровую, и векторную графику одновременно. Это крайне полезно для макетов с текстом. Текст стараются хранить в векторе до самой последней стадии печатной обработки.

Главный недостаток формата следует из его достоинства. ПДФ предназначен для печати, поэтому плохо влезает в небольшие экраны. Сжать можно только сам документ. Текст не может быть скомпанован динамически. Умные читалки вроде Киндла научились срезать пустые поля по краям документа, но это не приносит значимой пользы.

ПДФ – бинарный формат. Документ плохо поддается машинной обработке. Огромные усилия вложены во всевозможные парсеры, анализаторы и утилиты, которые вытягивают из ПДФ данные в более дружелюбные форматы. Я лично участвовал в подобном мероприятии.

На недостатках формата отдельные предприниматели строят бизнес. Фирма VeryPDF предоставляет клиентам автоматическое распознавание таблиц в ПДФ. Многие ПДФ-библиотеки для языков программирования либо платные, либо с несвободной лицензией.

ПДФ – сложный формат с огромным легаси. Задача парсинга упирается в то, что на каждый случай, как обрабатывать тот или иной элемент, существует длинный case-оператор в зависимости от версии.

В документ практически невозможно вставить какую-либо анимацию или медиа-контент. Гифка не воспроизводится. Видео – только с помощью плагина, который никто кроме Адоби не поддерживает.

Однажды я ради интереса скачал демо-документ с трехмерной сценой какой-то детали. Он весил 170 Мб и при открытии 3 раза спросил про безопасность. А Гитхаб без проблем показывает в Хроме рендер моделей для 3Д-принтеров.

Официальная программа Adobe Reader выродилась в жирного монстра, который регистрирует 2 службы, прописывается в автозагрузку, забит по самые уши лишними опциями.

Поверх формата ПДФ фирма Адоби пыталась создать облачную платфрму для совместной работы с документами. Давно не узнавал, как идут дела, но на мой взгляд, не густо. Все же, наследие формата для этого не подходит.

ПДФ это своего рода Флеш в плане безопасности. Массовые случаи заражений, утечек данных, зависаний компьютеров. Как вообще могло в прийти голову разрешить вложения .exe, .js, .vb файлов в ПДФ-документ?

Что же предпочесть в итоге?

На мой взгляд, лучший формат для текста и мультимедии – это дедушка ХТМЛ. Не потому, что внезапно он стал чем-то лучше. Браузеры и устройства стали показывать его очень хорошо. Анимация, видео, звук, интерактивные элементы, даже игры – все это поддерживает ХТМЛ. Текст компонуется автоматически.

Если в документе исключительно теги заголовков и абзацев (h1..6 и p), то любой мобильный девайс покажет текст на ура.

Мораль – упрощайте. Если устройство должно показывать текст, то лучший формат – это просто текст.