Розпізнавання тексту – дуже зручна можливість. Вам більше не треба передруковувати великі обсяги з книг і статей. Для вчителів, студентів і науковців такі програмні додатки – справжній подарунок. Розглянемо різні додатки і визначимо, яка програма для розпізнавання тексту з картинки – найкраща.
Як це працює
Оптичне розпізнавання тексту (OCR – Optical Character Recognition) – це можливість перетворити текст з графічного образу (фото, скан, pdf) в звичайний формат. Перетворений текст можна редагувати. Будь-яка растрова картинка складається з точок. Програмне забезпечення для розпізнавання виділяє на зображенні букви і переводить їх в текст. Відбувається аналіз структури документа. Виділяються текстові блоки. Потім будуються лінії, які діляться на слова, а далі на символи. Кожен символ порівнюється з шаблонами. Після чого будуються гіпотези, що це за символ. Виходячи з них, ПО аналізує різні варіанти розбиття рядків на слова, а слова на символи. Кількість таких гіпотез величезна. В кінець кінців програма приймає рішення і видає текст.
Огляд програмного забезпечення
Умовно всі додатки можна розділити на три категорії:
- Платні.
- Безкоштовні.
- Онлайн сервіси.
Розглянемо кілька варіантів з кожного розділу.
Платні та безкоштовні програми
OCR CuneiForm
Безкоштовна програма для розпізнавання відсканованого тексту, яку можна завантажити тут.
Завантажити OCR CuneiForm
Додаток було розроблено в 1993 році в компанії Cognitive Technologies. Однією з головних особливостей її на той момент була можливість розпізнавання суміші російської та англійської мов. У 2009 році була додана гілка, яка дозволяє розпізнавати суміш інших мов. Програмний продукт поставлявся з сканерами і МФУ від провідних виробників: Hewlet-Pachard, Epson, Xerox і т.д. Остання версія вийшла в 2009 році. Після завантаження та установки пробуємо розпізнати текст. Для прикладу візьмемо цю статтю.
Інтерфейс програми простий, меню російською мовою.
Натискаємо значок папки і вантажимо картинку. Натискаємо кнопку розпізнавання.
Результат не вражає. Різнобарвний текст не розпізнано.
Не дивлячись на заявлене використання різних словників, англійська теж розпізнається погано.
Загалом, ідеальне фото можна перевести в символи, але чим нижче якість вихідної картинки, тим нижче воно і у результату. Треба зауважити, це єдина русифікована програма розпізнавання тексту при скануванні, яку вдалося завантажити безкоштовно легальним чином. Всі інші в кращому випадку мають пробний безкоштовний період.
RiDoc
Програма для розпізнавання тексту з фото або зі сканера з безкоштовним періодом в 30 днів. Завантажити можна тут.
завантажити RiDoc
Додаток володіє непоганим функціоналом і доступним інтерфейсом. Для завантаження картинки натискаємо кнопку «Відкрити». Далі кнопку «Розпізнати».
У підсумку отримуємо готовий результат. Його можна відкрити в Word або OpenOffice.
Ось результат.
Теж не ідеально, але набагато більше, ніж в попередньому випадку. Також можна накласти водяний знак або склеїти кілька картинок.
ReadIris
Платний програмний продукт з пробною версією, розрахованої на 100 сторінок або 10 днів. Завантажити програму для сканера для розпізнавання тексту з офіційного сайту можна тут.
завантажити ReadIris
Розробник – бельгійська компанія IRIS, створена в 1986 році. Основна спеціалізація – технології і продукти для інтелектуального розпізнавання документів.
Програма перетворює картинку, файл PDF або відсканований документ в повністю редагований текстовий файл. Витягує текст з ваших документів, зберігаючи при цьому макет вихідного файлу. Має наступні можливості:
- конвертувати файли Word, Excel і PowerPoint в індексовані PDF-файли;
- конвертація документів за допомогою контекстного меню;
- індикатор якості для імпортованих документів;
- автоматичне виявлення сканерів;
- модуль корекції перспективи.
Інтерфейс програми русифікований (вказується при установці) і досить простий. Натискаємо кнопку «З файлу» і вибираємо нашу картинку. Програма автоматично розділила її на два блоки.
Для розпізнавання натисніть кнопку «Відкрити» і вкажіть шлях для картинки. Формат вказується рядком вище.
Результат перевершив всі очікування. Навіть накреслення збереглося.
Можна відправити документ поштою або в хмару. Для цього слід клацнути по списку зверху і вибрати. За замовчуванням зберігається в файл.
Коштує ця програма близько 6000 руб.
ABBYY FineReader
Найвідоміша і розкручена програма. Завантажити пробну версію можна тут.
Платна коштує 6990 р. Російська розробка 1993 року, до цих пір вважається однією з кращих в світі. Основні можливості:
- Розпізнавання таблиць і графіків, математичних формул.
- Перегляд і навігація pdf.
- Створення і пряме редагування pdf.
- Робота з цифровим підписом.
- Порівняння документів.
- Додавання коментарів.
Програма має безліч можливостей. Інтерфейс русифікований і доступний. Після натискання кнопки «Відкрити» та вибору картинки, починається автоматичне його розподіл на блоки.
Для початку процесу натисніть відповідну кнопку.
Далі залишилося вибрати, в якому форматі зберігати і вказати папку, в яку слід зберегти документ.
Відкриємо результат. Як бачите, розпізнавання пройшло ідеально.
Ще раз порівняємо з ReadIris.
Перший варіант (Finereader) виконаний бездоганно. Тому, мабуть, пальму першості віддаємо цій програмі. За ціною вони співвідносяться, так що різниця в 600-700 гривень особливої ролі не грає.
Розпізнавання тексту по фото онлайн
Онлайн сервіс обробки картинок. На сайті представлені інструменти:
- Стиснення і зміна розміру картинки
- Обрізка, кадрування
- Обробка вбудованих метаданих
- ефекти
- покращення
- Визначення палітри кольорів картинки
- отримання фону
- Визначення відсотка схожості та ін.
Зручний сайт, який дає безліч можливостей обробки картинки. Інтерфейс простий і зрозумілий. Пропонує дві програми. Порівняємо. Завантажимо файл і натиснемо кнопку «ОК».
Далі натискаємо на посилання.
Результат не радує.
Пробуємо другу програму.
Теж сумнівно.
Виставимо додаткову мову.
Перевіряємо результат.
Трохи краще, але до досконалості далеко.
Програма для розпізнавання тексту з фото онлайн, сканування не допускає.
Сайт функціонує з 2014 року. Інших сервісів, крім поточного, розробники не планують. Виберіть файл і натисніть «Завантажити». Потім слід натиснути «Почати розпізнавання».
Результат теж далекий від досконалості.
Досить великий платний портал, на якому ви можете скористатися наступними можливостями:
- Конвертація відео, аудіо, картинок.
- Перетворення PDF в Word, Excel, PowerPoint.
- Поділ PDF.
- Стиснення PDF, PNG та ін.
Принцип роботи абсолютно аналогічний, але налаштувань більше. Картинки можна перетягувати. Можна вказати кілька мов і тип документа, куди зберігається результат.
Незареєстрованим користувачам доступні тільки 10 сторінок для розпізнавання. Після натискання на каптчу, виберіть «Перетворити».
Натисніть скачати.
Результат перевершив всі очікування.
Виявляється, і у простих сервісів онлайн є можливість якісного розпізнавання. Так що Convertio оголошується однозначним переможцем в цій номінації. Але, як і будь-який відмінний продукт, він платний.
Отже, ми розглянули різні інструменти розпізнавання тексту. З’ясувалося, що безкоштовні можуть допомогти, але якість залишається на висоті. Так що, якщо вам постійно потрібно перекладати текст з друкованого виду в електронний, доведеться розщедритися.
Відмінного Вам дня!