Для выбора языков, которые необходимо распознать, отметьте язык в списке. Используйте полосу прокрутки для просмотра всех языков, доступных для выбора. Для операций выбора используйте кнопки, расположенные под окном просмотра:
- Нажмите кнопку Выбрать все для того, чтобы выбрать для распознавания все языки, отображенные в зоне просмотра.
- Нажмите кнопку Отменить выбор для того, чтобы отменить выбор языков, сделанный ранее.
- Нажмите кнопку Инвертировать выбор для того, чтобы отменить выбор языков, сделанный ранее и, вместе с тем, отметить как выбранные все остальные языки.
Под зоной просмотра языков расположена информационная панель с данными об общем количестве поддерживаемых и числе выбранных пользователем для распознавания языков. Английский язык выбран по умолчанию.
Настройки распознавания
Для выбора доступны следующие фильтры:
- Удалять фоновые шумы - фильтр, позволяющий удалять шумы различного рода, которые присутствуют в фоне изображения. При сканировании старых документов из-за старения бумаги, наличия теней и разнообразия текстур в результате получается изображение текста на неоднородном сером фоне. Поскольку черно-белые изображения распознаются более эффективно, этот неоднородный фон желательно удалить.
- Удалять линии с изображений - фильтр, позволяющий удалять горизонтальные и вертикальные лини при выполнении распознавания изображения. Полезен при распознавании изображений таблиц и фрагментов текста, помещенных в рамки.
- Найти и удалить подчеркивания слов в тексте - позволяет оптимизировать распознавание изображение текста за счет игнорирования форматирования слов подчеркиванием.
- Очищать изображение от дефектов - фильтр, позволяющий очистить изображение от различного рода дефектов. Фильтрация дефектов выполняется для удаления паразитного мусора. Применение фильтра может привести к удалению мелких деталей изображения.
- Фильтровать дефектные линии - фильтр, позволяющий очищать изображение от паразитных линий.
- Разделять и объединять некорректные символы при необходимости - позволяет повысить точность распознавания и последующего анализа текста, размещенного на изображении.
- Использовать алгоритм определения регистра символов.
- Вводить дополнительные пустые линии между строками - фильтр, позволяющий сохранить одинаковое расстояние между строками в обрабатываемом фрагменте текста при распознавании. Алгоритм бинаризации предусматривает вычисление среднего расстояния между строками в тексте, основываясь на полученном значении, в случаях необходимости, могут быть добавлены дополнительные строки. Это может быть полезно при распознавании изображения текста в таблицах с пустыми ячейками.
Настройки анализа изображений
- Выберите из раскрывающегося списка поля Загрузка изображения один из режимов предварительной обработки изображения:
- Загружать все изображения в 8-битном режиме — загрузка черно-белого изображения с 256 оттенками по палитре от черного к белому. Данный режим позволяет снизить затраты памяти и повысить скорость последующей бинаризации.
- Загружать все изображения в 24-битном режиме — загрузка полноцветного изображения с 16777216 цветами.
- Комбинированный режим — загрузка черно-белых изображений и изображений в градациях серого в 8-битном режиме и загрузка полноцветных изображений в 24 -битном режиме.
- Выберите из раскрывающегося списка поля Быстрое распознавание один из критериев, которым следует отдать приоритет при распознавании:
- Предпочтительно лучшее качество распознавания.
- Предпочтительна максимальная скорость распознавания.
- Сверхбыстрый режим распознавания.
- Процедура бинаризации преобразовывает серое или цветное изображение в двухцветное - черно-белое. Выберите из раскрывающегося списка поля Бинаризация один из доступных режимов перевода исходного изображения в монохромное:
- Применять автоматически, когда это необходимо.
- Не применять.
- Применять всегда.
Настройки бинаризации и фильтрации дефектов
- Коэффициент черного — дополнительный коэффициент равный отношению черных пикселей к белым на изображении. Значение по умолчанию -"10".
- Коэффициент расстояния между словами — коэффициент расстояния между словами в распознаваемом изображении текста. Значение по умолчанию - "1.0".
- Простой коэффициент расстояния — коэффициент расстояния. "0" - применяется адаптивное определение расстояния. "1"..."1000" - заданное значение расстояния в пикселях. Значение по умолчанию - "0".
- Порог бинаризации — значение характеристики изображения(порог), позволяющей разделить пиксели на черные и белые. "0"..."254" - используется простая бинаризация с заданным порогом. "255" - используется интеллектуальная адаптивная бинаризация, порог определяется для каждого пикселя автоматически. Значение по умолчанию - "255".
- Дополнительный коэффициент бинаризации – коэффициент, уточняющий значение порога бинаризации.
2. Установите требуемые значения габаритов паразитного мусора на изображении для их последующей фильтрации в разделе Настройки фильтрации дефектов:
- Минимальная ширина больших дефектов.
- Минимальная высота больших дефектов.
- Максимальная ширина малых дефектов.
- Максимальная высота малых дефектов.