WhatsApp

gImageReader — извлечение текста из изображений и PDF-файлов в Linux

Anonim

gImageReader — бесплатная программа для чтения PDF с открытым исходным кодом, которая позволяет извлекать текст из изображений и PDF-файлов. Он построен как простой интерфейс Gtk/Qt для Tesseract-OCR, механизм OCR с открытым исходным кодом для распознавания текстов и шаблонов в документах и ​​изображениях с использованиемИскусственный интеллект

Сам по себе Tesseract представляет собой инструмент командной строки, который может использоваться только пользователями Linux, достаточно знакомыми со своими терминалами. Благодаря gImageReader теперь каждый может воспользоваться преимуществами эффективности распознавания текста.

gImageReader работает путем сканирования текстов из PDF-файла или файла изображения на любом из нескольких языков, которые он поддерживает, благодаря наличию символов Unicode. . Он имеет простой, хорошо организованный настраиваемый пользовательский интерфейс, с помощью которого вы можете выполнять задачи проверки орфографии и перевода.

Возможности gImageReader

gImageReader прост в использовании и поддерживает работу с электронными копиями документов, а также снимками загруженных медиафайлов, например. скриншоты. У вас даже есть возможность выбрать интересующую вас область текста и добавить только тот текст, который вам нужен. В конечном счете, gImagereader работает и как программа для чтения PDF, и как инструмент для извлечения текста. Глупости.

Установите gImageReader в Linux

Чтобы использовать gImageReader в полной мере, вы должны вручную установить Tesseract языковые пакеты, чтобы вы могли правильно анализировать изображения и файлы.Пакет называется 'Tesseract-ocr-eng' и доступен в диспетчере программного обеспечения в Debianи Fedora дистрибутивы.

Если вы используете Ubuntu, вы можете просто добавить PPAи запустите команду установки, используя следующие команды:

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo подходящее обновление
$ sudo apt установить gimagereader

В Debian, Fedora и OpenSUSE установите его из диспетчера пакетов.

$ sudo apt установить gimagereader
$ sudo dnf установить gimagereader
$ sudo zypper установить gimagereader

Не чувствуйте себя обделенными, если вы используете Arch Linux или любую из его производных. AUR поможет вам. А если вы предпочитаете пересобирать приложение из исходного кода, инструкции можно найти в его Wiki-ссылке на репозиторий GitHub.

Вы извлекаете печатный текст из изображений? Вы даже можете делать снимки выбранных областей с помощью телефона и загружать их на свой ноутбук. Что еще круче, так это его многоязычная поддержка, которая, хотя и не идеальна, уже сейчас является одним из лучших вариантов в сообществе.

gImageReader — одна из лучших программ для чтения PDF в мире с открытым исходным кодом, особенно с возможностью оптического распознавания символов, так что попробуйте и убедитесь сами. как тебе.

Как обычно, вы можете поделиться с нами своим опытом работы с приложением, если он у вас есть. И добавить другие предложения в разделе комментариев ниже.