Тест pdf2epub через FineReader 11

Создание электронных книг в популярных форматах fb2, ePub® и других для чтения на портативных устройствах

Программа поддерживает сохранение в форматах электронных книг (fb2, ePub) и др., это поможет быстро сделать электронную копию для - бук-ридера, планшета, смартфона и других портативных устройств. Электронные книги, созданные с помощью ABBYY FineReader 11, можно отправлять прямо из приложения на аккаунт пользователя устройства Amazon® Kindle™.

via abbyy.ru

В новой, 11-й, версии известной программы по распознаванию текста FineReader разработчики ввели функцию преобразования изображения (в частности, из PDF) популярные форматы электронных книг (EPUB и FB2). По этому поводу Сергей Голубицкий уже, помнится, написал хвалебную заметку.
Меня, конечно, интересовала способность программы распознавать и правильно конвертировать PDF в EPUB. Задача не столь тривиальная, как кажется, поскольку PDF — формат, который описывает позиционирование символов, для эл.книги практически бессмысленное, а не семантику абзацев, напротив, для эл.книг крайне важную.
Прогнал через новый FineReader пару PDF разной степени сложности. Резюме — всяко лучше, чем любые западные конверторы. FineReader понимает русский язык и в подавляющем большинстве случаев успешно убирает переносы. А ещё успешно убирает конлонцифры и (!) колонтитулы.
Что касается распознавания заголовков, то здесь всё уже не так хорошо. Программа понимает, что вот эти вот буквы — заголовок, только если они набраны разительно большим кеглем и идут с новой страницы. В противном случае получаются сбои. Те заголовки, которые программа распознать сумела, она бодро помещает в оглавление. Кроме того, программа старается подобрать похожий шрифт и, при ручной настройке, умеет внедрять кириллические шрифты в EPUB, что делает ABBYY честь.
Резюме: у издателей теперь есть очень неплохой вспомогательный инструмент по конвертированию старых макетов в EPUB. Правда, обойтись без знания спецификации EPUB и последующей коррекции файла всё же не удастся.