Prueba gratis
Guía del administrador

Средство распознавания Nicomsoft

Для использования и настройки средства распознавания Nicomsoft:

  1. В блоке Средство распознавания изображений модуля Распознавание изображений выберите Nicomsoft OCR.
  2. Нажмите кнопку настроек.
  3. В окне Настройка встроенного плагина измените настройки по умолчанию в соответствии с задачами распознавания. Для восстановления настроек по умолчанию нажмите кнопку Использовать базовые настройки в нижнем левом углу окна Средство распознавания.
  4. По окончании всех настроек нажмите OK.

Основные настройки

Для выбора языков, которые необходимо распознать, отметьте язык в списке. Используйте полосу прокрутки для просмотра всех языков, доступных для выбора. Для операций выбора используйте кнопки, расположенные под окном просмотра:

  • Нажмите кнопку Выбрать все для того, чтобы выбрать для распознавания все языки, отображенные в зоне просмотра.
  • Нажмите кнопку Отменить выбор для того, чтобы отменить выбор языков, сделанный ранее.
  • Нажмите кнопку Инвертировать выбор для того, чтобы отменить выбор языков, сделанный ранее и, вместе с тем, отметить как выбранные все остальные языки.

Под зоной просмотра языков расположена информационная панель с данными об общем количестве поддерживаемых и числе выбранных пользователем для распознавания языков. Английский язык выбран по умолчанию.

Настройки распознавания

Для выбора доступны следующие фильтры:

  • Удалять фоновые шумы - фильтр, позволяющий удалять шумы различного рода, которые присутствуют в фоне изображения. При сканировании старых документов из-за старения бумаги, наличия теней и разнообразия текстур в результате получается изображение текста на неоднородном сером фоне. Поскольку черно-белые изображения распознаются более эффективно, этот неоднородный фон желательно удалить.
  • Удалять линии с изображений - фильтр, позволяющий удалять горизонтальные и вертикальные лини при выполнении распознавания изображения. Полезен при распознавании изображений таблиц и фрагментов текста, помещенных в рамки.
  • Найти и удалить подчеркивания слов в тексте - позволяет оптимизировать распознавание изображение текста за счет игнорирования форматирования слов подчеркиванием.
  • Очищать изображение от дефектов - фильтр, позволяющий очистить изображение от различного рода дефектов. Фильтрация дефектов выполняется для удаления паразитного мусора. Применение фильтра может привести к удалению мелких деталей изображения.
  • Фильтровать дефектные линии - фильтр, позволяющий очищать изображение от паразитных линий.
  • Разделять и объединять некорректные символы при необходимости - позволяет повысить точность распознавания и последующего анализа текста, размещенного на изображении.
  • Использовать алгоритм определения регистра символов.
  • Вводить дополнительные пустые линии между строками - фильтр, позволяющий сохранить одинаковое расстояние между строками в обрабатываемом фрагменте текста при распознавании. Алгоритм бинаризации предусматривает вычисление среднего расстояния между строками в тексте, основываясь на полученном значении, в случаях необходимости, могут быть добавлены дополнительные строки. Это может быть полезно при распознавании изображения текста в таблицах с пустыми ячейками.

Настройки анализа изображений

  1. Выберите из раскрывающегося списка поля Загрузка изображения один из режимов предварительной обработки изображения:
  • Загружать все изображения в 8-битном режиме — загрузка черно-белого изображения с 256 оттенками по палитре от черного к белому. Данный режим позволяет снизить затраты памяти и повысить скорость последующей бинаризации.
  • Загружать все изображения в 24-битном режиме загрузка полноцветного изображения с 16777216 цветами.
  • Комбинированный режим — загрузка черно-белых изображений и изображений в градациях серого в 8-битном режиме и загрузка полноцветных изображений в 24 -битном режиме.
  1. Выберите из раскрывающегося списка поля Быстрое распознавание один из критериев, которым следует отдать приоритет при распознавании:
  • Предпочтительно лучшее качество распознавания.
  • Предпочтительна максимальная скорость распознавания.
  • Сверхбыстрый режим распознавания.
  1. Процедура бинаризации преобразовывает серое или цветное изображение в двухцветное - черно-белое. Выберите из раскрывающегося списка поля Бинаризация один из доступных режимов перевода исходного изображения в монохромное:
  • Применять автоматически, когда это необходимо.
  • Не применять.
  • Применять всегда.

Настройки бинаризации и фильтрации дефектов

  • Коэффициент черного — дополнительный коэффициент равный отношению черных пикселей к белым на изображении. Значение по умолчанию -"10".
  • Коэффициент расстояния между словами — коэффициент расстояния между словами в распознаваемом изображении текста. Значение по умолчанию - "1.0".
  • Простой коэффициент расстояния — коэффициент расстояния. "0" - применяется адаптивное определение расстояния. "1"..."1000" - заданное значение расстояния в пикселях. Значение по умолчанию - "0".
  • Порог бинаризации — значение характеристики изображения(порог), позволяющей разделить пиксели на черные и белые. "0"..."254" - используется простая бинаризация с заданным порогом. "255" - используется интеллектуальная адаптивная бинаризация, порог определяется для каждого пикселя автоматически. Значение по умолчанию - "255".
  • Дополнительный коэффициент бинаризации – коэффициент, уточняющий значение порога бинаризации.

2. Установите требуемые значения габаритов паразитного мусора на изображении для их последующей фильтрации в разделе Настройки фильтрации дефектов:

  • Минимальная ширина больших дефектов.
  • Минимальная высота больших дефектов.
  • Максимальная ширина малых дефектов.
  • Максимальная высота малых дефектов.