Чтение документов в PDF и DjVu на 6" Onyx Boox 60s/A60s/x60s.

Вступление.

Электронные книжки часто используют не только для чтения беллетристики, но и для технической
литературы. Самые популярные форматы документов для технической литературы - это PDF и
DjVu. В формате PDF публикуется подавляющее большинство статей и периодических изданий, а
DjVu - популярный в России формат для сканирования учебников. Цель этой заметки помочь
новичкам освоиться в чтении этих форматов на младших моделях Onyx Boox (модели с литерой 's'
- от Simple). Младшие модели лишены стилуса и поэтому навигация по документам в них заметно
сложнее.

Документы PDF бывают двух видов: «картиночные» и «текстовые». В «картиночном» документе,
также как и в DjVu, нет текста как такового, а каждая страница есть просто скан листа. Для такого
PDF доступно только масштабирование страниц и навигация по ним джойстиком. В «текстовом»
документе PDF не только есть принципиальная возможность работы с текстом (например, поиск и
словарь), но ещё возможен просмотр PDF в т.н. режиме Reflow.

Альбомная ориентация.

Чаще всего документ PDF верстается под лист стандартного размера A4 (реже A5). Диагональ
листа A4 составляет 14.3 дюйма. Поэтому все PDF, которые мне приходилось читать на Ониксе, я
читал в альбомной ориентации, а иначе шрифт слишком мелкий. Теперь привык и читаю всё
подряд, держа читалку горизонтально. =)

Ниже представлены снимки одной и той же страницы документа в альбомной (слева) и
портретной (справа) ориентации при масштабировании «по ширине». В альбомной ориентации
крупнее шрифт, но меньше текста помещается на экране.

Режим свитка.

Для любого читаемого документа я выбираю «вид свитка» (Меню -> Размещение страниц -> Вид
свитка). В этом режиме страницы «склеиваются», а при перещёлкивании вниз на следующую
страницу отображается пара строк текста от предыдущей страницы. Ниже на рисунках можно
видеть «картиночный» документ PDF в режиме «вид свитка» отмасштабированный «по ширине»
(правый) и в масштабе 100% (левый).

Если этот режим не включён, то при перещёлкивании читалка может «проскочить» несколько
строк, а также становится невозможен переход с одной страницы PDF на другую джойстиком (так
я называю внутренне серебристое кольцо). Кроме того не работает нужным образом режим
«обрезка полей» в DjVu (см. далее).

Режим Reflow.

В этом режиме (Меню -> Шрифт->Х%) читалка игнорирует разметку документа и выравнивает
весь текст по левому краю экрана. Читатель имеет возможность выбрать размер шрифта (но, к
сожалению, не сам шрифт). Попадаются документы PDF с размером листа A4 с длинными
строчками текста, и если растянуть этот текст по ширине экрана читалки и даже обрезать поля, то
шрифт всё равно чрезвычайно мал и непригоден для чтения. В этом случае режим Reflow -
единственный способ прочитать такой документ. Если в тексте попадаются простые картинки, то в
режиме Reflow они тоже выравниваются по левому краю экрана и отображаются вполне
читабельно. Если же в документе PDF присутствуют сложные элементы - таблицы, графики или
формулы, то Оникс откажется отображать такую страницу в режиме Reflow, либо отобразит текст в
Reflow без этих элементов, либо подвиснет при попытке применить Reflow. :-)

Ниже представлены снимки с экрана Оникса страницы текстового документа PDF с увеличением
«по ширине» (слева) и в режиме Reflow 400% (справа).

Масштабирование листа документа.

Производится одинаково и для «картиночных» и для «текстовых» документов (Меню ->
Увеличение -> ...). Варианты масштабирования следующие: По: размеру, ширине или высоте;
обрезка полей (только DjVu, см. дальше) и процентные: 75%, 100%, 125%, 150%, 175%, 200%,
300%, 400%. Масштабирование - основной инструмент для работы с PDF, укажу его особенности.

1. Масштабирование по ширине оставляет поля, а обрезку полей в документах PDF ещё не
предусмотрели.

2. Масштабирование по размеру и высоте бесполезны.

3. Масштаб в процентах, как легко видеть, имеет частый шаг (25%) только при небольшом
увеличении. Для того чтобы сделать документ читаемым на небольшом 6-дюймовом экране,
приходится выбирать большой процент увеличения (например, чтобы растянуть по ширине
экрана столбец многоколоночного текста - см. снимки в разделе «Двухколоночные статьи в PDF»).
И тут встаёшь перед такой дилеммой (пример): увеличение 200% мало (текст мелкий), а 300%
много (текст уже не помещается).

Уже 4 месяца требую от Оникса добавить промежуточные проценты - всё никак.
Страница A5 (стандартный учебник) в PDF и DjVu.

Неважно, «картиночный» это PDF, или «текстовый», технология чтения одинакова. Если растянуть
текст по ширине экрана, то шрифт хоть и мелковат, но вполне читаем и не утомляет глаза. Нужно
выбрать режим «свитка», затем выбрать подходящее увеличение. Можно выбрать
масштабирование «по ширине» или же «X%» (для разных документов X может быть разным, но
для A5 это часто 175-200%). В первом случае Оникс отмасштабирует документ PDF по ширине
вместе с полями, что уменьшает ширину строчки, следовательно уменьшается размер и без того
мелкого шрифта; поэтому предпочтительно использовать вариант масштабирования «X%» (в
качестве иллюстрации масштабирования учебника с размером страницы A5 по ширине см.
правый снимок в разделе «вид свитка»). Далее остаётся двигаться по получившемуся PDF-свитку
вверх-вниз джойстиком. Если Вы случайно нажали джойстиком вбок и часть текста «уехала» за
границу экрана (а в экран «приехало» ненужное боковое поле) - не беда, выберите масштаб 100%
(документ снова будет отцентрирован относительно экрана), а затем тот масштаб, в котором Вы
читали.

В DjVu всё ещё проще. В последней прошивке производители хорошо доработали режим
«обрезка полей», который после выбора режима «свиток» обрезает только боковые поля,
растягивая текст по ширине экрана. Остаётся только перемещаться джойстиком по документу и
читать. Поскольку в большинстве книг, отсканенных в DjVu (учебники), на одном скане содержится
одна страница, читать DjVu на Ониксе вполне удобно.

Двухколоночные статьи в PDF.

Если статья текстовая, то смело открывайте её в режиме Reflow, Оникс справится. Максимум что -
среди текста могут проскакивать рудименты, состоящие из подписей на нижних/верхних полях
статьи (в научных статьях там частенько написано название и выпуск журнала и т.п.), но это не
напрягает.

Если же статья содержит сложные элементы вроде графиков, то режим Reflow не сработает, а
читалка может и подвиснуть при попытке заставить её применить режим Reflow. Придётся
«растягивать» колонку по ширине экрана и «бегать» экраном по колонкам. У Оникса мощный
процессор, поэтому такая «беготня» достаточно быстрая и не напрягает (по крайней мере, меня).
Однако, увеличение одной колонки по ширине экрана - задача не тривиальная. Большинство
двухколоночных PDF-документов, которые мне попадались, имеют очень широкие поля. Без
стилуса джойстиком можно осуществлять только грубое перемещение влево-вправо по
документу и, в конечном счете, единственным удобным вариантом оказывается сдвиг документа
влево или вправо до упора, чтобы читать правую или левую колонку. Тогда из-за ширины полей
шрифт становится слишком мелким на 200% (левый снимок), а на 300% (правый снимок)
увеличения шрифт уже обрезается (обрезано около 15% текста, читать невозможно).

Как легко видеть, не хватает промежуточных процентов и встроенной обрезки полей у
документов PDF. Решение этой проблемы я нашёл в самостоятельной обрезке полей
двухколоночного документа PDF на компьютере до загрузки на читалку (как это сделать просто -

см. раздел «обрезка полей»). Тогда на увеличении в 300% строчки помещаются на экране, а
шрифт достаточно крупный и приятный для чтения (см. снимок того же документа с обрезанными
полями ниже) .

Аналогичная ситуация с документами DjVu, в которых ленивые люди сканировали не каждую
страницу книги, а разворот. Чтобы комфортно читать такой документ, может понадобиться
разрезать каждый скан на два. Как это сделать, смотри раздел «Обработка документов DjVu».

Трёх- и более колоночные документы PDF.

Попадаются и такие (хотя бы журналы Science и Nature). Читал даже 4-колоночную статью, но
только с компьютера. Поэтому, честно говоря, и не знаю, как получится с масштабированием на
Ониксе, но думаю (учитывая проблему №3 с процентным увеличением, описанную в разделе
«Масштабирование листа документа») читать будет неудобно. Жду ваших отзывов со
скриншотами по этому вопросу в ЛС, если кто-то сталкивался. ;-)

Обрезание полей у документа PDF (Windows).

Поскольку очень многие научные стать публикуются в электронном виде в двухколоночном
формате, а Оникс ещё не научился обрезать поля у PDF, проблема обрезки полей актуальна.
Использование, например, родного Adobe Acrobat не подойдёт, потому что программа тяжёлая и
требует установки; кроме того кто его знает, что там с интерфейсом - возможно, придётся
осваивать, сам не пробовал, но даже и не хочу заморачиваться. На просторах Интернета я
перерыл несколько сайтов, предоставляющих инструментарий для обработки PDF, но поля
обрезать они, увы, не умеют. Выход для себя я нашёл в программе CAD-KAS PDF Editor (CAD-KAS
Software -
http://www.cadkas.com/rhome.php ) (см. снимок ниже).

Демоверсия программы БЕСПЛАТНАЯ, функционал её урезан, но обрезать поля она позволяет.

Для обрезки полей следует выбрать в панели инструментов Страница -> Редактировать панель
обреза.

Преимущества программы следующие:

1. Программа имеет простой интерфейс, вследствие чего она очень проста в использовании
(меню интуитивно понятны) ;

2. Программа аленькая и шустрая, весит всего 4,5 Мб;

3. Позволяет выбрать обрезку полей сразу у всех страниц PDF-документа;

4. Обрезка полей осуществляется выбором обрезки по четырём краям, что очень удобно (см.
снимок выше).

Насчёт 3-го пункта следует оговориться. Старые «картиночные» PDF-документы могут быть
«криво» сканированы, из-за чего области с текстом могут располагаться на разных листах
документа по-разному относительно границ листа и даже вкривь. Тогда полностью поля у всех
страниц разом не обрежешь, только частично. Если же нужно обрезать поля целиком, то придётся
обрабатывать каждую страницу отдельно. Ниже приведён пример неаккуратно отсканенного
«картиночного» PDF при масштабировании 200%. Видно, что нижняя страница обрезается справа.
На масштабировании 175% этой проблемы нет, но и без того мелковатый шрифт становится ещё
мельче.

Nota bene. При обрезке полей не обрезайте их совсем под корень, оставьте чуть-чуть. Дело в том,
что если слово располагается на самом краю экрана, то крайние буквы плохо видно. Обрезайте,
например, как на третьем снимке в разделе «Двухколоночные статьи в PDF».

Нарезка документа PDF для комфортного чтения на 6" устройстве (Windows и Linux).

Не перевелись ещё на свете умельцы! Программа портативная (не требует установки). Она «умно»
нарезает обычный или колоночный документ PDF на отдельные картинки, комфортно читаемые
на экране 6". Попутно, естественно, обрезает, поля. На выходе можно получить набор картинок, а
можно документ PDF с этими картинками. Читайте подробности и скачивайте программу тут:
http://code.google.com/p/papercrop/.

Обработка документов PDF и DjVu (Windows).

По ссылке http://www.djvu-soft.narod.ru/kromsator/sk 5 91 melirius можно скачать программу
ScanKromsator, которая способная не только автоматически распознать и обрезать разные поля,
но и устранить перекос скана, стереть пыль и т.д, а также разрезать сканированные развороты.

Главная причина использования этой программы - это двухстраничные сканированные PDF и
DjVu. С ними неудобно управляться на Ониксе, а решить эту проблему можно разрезанием
разворота.

Программа русифицирована и бесплатна.
Обработка документов DjVu (Windows).

Для этого потребуются две программы - WinDjView и ABBY FineReader (тестировано на версии 10).
Алгоритм действий следующий:

1. Открываем документ DjVu в программе WinDjView;

2. Печатаем его в виртуальном принтере FineReader, в результате чего получаем полноценный
PDF;

3. Выставляем в программе FineReader опцию «делить разворот» и открываем в ней
получившийся документ PDF;

4. Также в программе FineReader можно обрезать поля.

Недостаток этого подхода в том, что FineReader работает очень медленно. Ускорить его работу
можно, уменьшим размер получившегося документа PDF при помощи функции оптимизации в
программе Adobe Acrobat.

Для конвертирования документа из формата DjVu в PDF вместо программы WinDjView можно
использовать online-конверторы, например, эти:

http://www.docspal.com

http://www.online-convert.com

Однако этот вариант следует рассматривать, как альтернативный, потому что эти конверторы
через раз «лажают».

Обрезка полей у документа PDF в программе «Просмотр» (MacOS X 10.6).

Желательно на панель инструментов поместить кнопки "Выбрать" и "Обрезать" (панель
инструментов настраивается через меню «Вид -> Настроить панель инструментов».

1) Открыть нужный документ в программе «Просмотр».

2) Открыть типовую страницу документа (чтобы понять, насколько надо урезать поля).

3) В боковой панели программы выделить все страницы документа - при помощи Shift и
прокрутки.

4) Нажать кнопку "Выбрать" на панели инструментов.

5) Выделить область (то есть выделить реальное содержимое страницы, без захвата полей).

6) Нажать кнопку "Обрезать" на панели инструментов.

7) Файл - Сохранить как.
Готово!
Остальное.

Если «картиночный» документ PDF или DjVu таков, что строки на нём слишком длинные, и
отображаемый шрифт слишком мелок даже после обрезки полей, то тут ничего не поделаешь -
читать такой документ придётся с компьютера. Всё-таки экран всего 6 дюймов.

Послесловие.

В этой заметке я поделился своим опытом по чтению документов PDF и DjVu на своём Ониксе и
никоим образом не претендую на полноту изложения. Поэтому жду Ваших отзывов по работе с
документами в этих форматах. Единственное, если Вам попался
один криво скроенный документ,
то писать о нём не имеет смысла. Если же Вам попадалось несколько документов одной и той же
компоновки, с чтением которых были проблемы, то именно такой случай представляет интерес. Я
собираюсь обновлять эту заметку после тестирования очередной прошивки или ознакомления с
новыми документами, при чтении которых возникают сложности.

Hosted by uCoz