Теория:

Очень часто появляется необходимость перевести в электронный вид текст каких-то документов, или даже книг. Можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но, чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.
 
Поэтому для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов.
 
После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов.
 
Наиболее широко известна и распространена такая программа отечественных производителей — ABBY FineReader.
 
Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках (на 179 языках), а также для распознавания смешанных двуязычных текстов.
 
Возможности программы ABBY FineReader:
  • Работает с разными моделями сканеров.
  • Позволяет из бумажных документов, PDF-файлов и цифровых фото сделать редактируемый текст.
  • Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.
  • Позволяет редактировать распознанный текст и проверять его орфографию.
  • Сохраняет внешний вид документа, а также его структуру, то есть, расположение слов, абзацев, таблиц, изображений, заголовков и нумерация страниц останутся такими же, как и в оригинале.
  • Экспортирует тексты в Word, Excel, PowerPoint или Outlook.
 
Преобразование бумажного документа в электронный вид происходит в пять этапов. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.
 
Пять этапов процесса обработки документа с помощью программы ABBY FineReader:
  1. Сканирование документа (кнопка Сканировать).
  2. Сегментация документа (кнопка Сегментировать).
  3. Распознавание документа (кнопка Распознать).
  4. Редактирование и проверка результата (кнопка Проверить).
  5. Сохранение документа (кнопка Сохранить).
 
1) На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать.
 
2) Второй этап работы — сегментация, разбиение страницы на блоки текста. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции. Содержимое страницы разбивается на блоки, внутри каждого из которых распознавание осуществляется в естественном порядке. Блоки нумеруются, исходя из порядка включения их в документ. При автоматической сегментации (кнопка Сегментировать) определение границ блоков осуществляется автоматически. При этом учитываются поля документа, просветы между колонками, рамки.
 
3) Процесс распознавания текста после сегментации начинается с щелчка на кнопке Распознать и полностью автоматизирован.
 
4) Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст. Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad. Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить.
 
5) По щелчку на кнопке Сохранить запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word) для последующей обработки полученный текст можно сохранить в виде форматированного или неформатированного документа.