W60 01157
ABBYY FineReader Express для Mac

Любому уважающему себя школьнику, студенту или аспиранту хоть раз в жизни нужно было распознать какой-либо отсканированный текст. Впрочем, сканирование текстов — необязательно прерогатива учащихся. Единожды напечатанный текст вызывает неприятное ощущение, когда его нельзя быстро и легко перевести в электронный. И речь идет не о сканах книг, потому что это незаконно. Но если авторские права разрешают копирование информации в личных целях, зачем тратить часы на перепечатывание текста?

Тут уважаемых маководов поджидал неприятный сюрприз: до недавнего времени поддержка известнейшего продукта для распознавания информации ABBYY FineReader была приостановлена на уровне 2007 года, что, сами понимаете, невесело. И вот — ура! — появилась легкая версия хорошо знакомого ABBYY FineReader с кодовым словом Express. Правильно, нечего тратить лишние деньги на одну необходимую функцию и миллион дополнительных возможностей, когда можно обойтись пятью-шестью из них. Давайте ближе ознакомимся с предложенными вариантами использования приложения.

Диалоговое окноПри открытии программы нас встречает простое диалоговое окно, где мы можем выбрать источник распознавания, язык и четыре выходных формата: форматированный текст, электронная таблица, HTML-страница или же PDF с возможностью поиска.

Итак, с источником ввода информации все понятно, поэтому не буду заострять внимание на этом, скажу лишь, что для удачного распознавания требуется разрешение отсканированного изображения не меньше 300 dpi, в противном случае программа сообщает о невозможности распознать текст из-за слишком мелких букв.

Далее, язык. Представлен огромный выбор языков распознавания, перечислять их все нет смысла, но лично я не знал о существовании и половины из них, несмотря на богатое лингвистическое прошлое.

Список языковОдновременно распознавать программа может не более трех языков. Однако тут есть хитрость. Если системный язык не является английским, то сразу за пунктом «-ский язык» появляется еще один «-ский и английский», где «-ский» — системный язык. В большинстве случаев, думаю, там будет написано «Английский и русский». При установленном по умолчанию английском в качестве системного языка никаких дополнительных пунктов не будет. Таким хитрым способом можно увеличить число одновременно распознаваемых языков до четырех, если это кому-то нужно, конечно же. Далее выбираем любой способ отображения конечной информации, и вперед!

Для теста были выбраны следующие картинки: отксерокопированная страница из учебника по исландскому языку серии Teach Yourself и таблица плотностей из учебника по физике 7 класса.

 

Скрин страницы из учебника по испанскому языку Скрин таблицы из учебника по физике

 

На первом скане тестировались выводы в форматы .rtf и .pdf, на втором, соответственно, в .xls и .html.

После запуска обработчика открывается окно со строкой состояния, а после завершения обработки — окно с результатами распознавания документа.

Конвертирование документа Результаты распознавания документа

Небогатый набор инструментов, тем не менее, обеспечивает всем необходимым: три типа области (текст, картинка, таблица) и поворот страницы.

 Обработка документа

Области, кстати, необязательно делать строго прямоугольными.

 Выделяем область

Нажимаем «Конвертировать» и получаем результат. Для такого сложного документа, как эта страница из учебника, результат впечатляет.

 Результат

Особо хочется отметить пункт «PDF с поиском»: на исходное изображение накладывается невидимый слой с текстом, так что в итоге мы получаем такое же изображение, как в отсканированной картинке, только поиск в таком документе можно осуществлять с тем же успехом, что и в текстовом.

PDF с поиском

С таблицей все предельно просто. Программа отлично распознает табличные части и мастерски переводит их в Excel и в HTML.

 

Обработка таблицы Перевод в Excel Перевод в html

 

Завершая обзор, хочется сказать, что, в общем-то, для повседневных задач Express-версия ничуть не хуже, а может, даже и лучше профессиональной версии в силу своей простоты. При правильном подходе все задачи можно решить с помощью имеющихся инструментов. Уровень и качество распознавания на высоте, а создание PDF с возможностью поиска меня очень удивило.

Отмечу, что улучшение всего учебника по исландскому языку, т.е. добавление поиска по тексту, заняло у меня 20 минут, из которых 5 ушло на написание простенького скрипта в Automator для создания единого PDF. Удачных вам рефератов!

комментировать Комментарии 0

Будьте первыми, кто прокомментирует эту статью!

Ваш комментарий
Авторизуйтесь чтобы можно было оставлять комментарии.