Термины и определения
Оптическое распознавание изображений—электронный перевод фрагментов текста, содержащихся в изображениях, в текстовые данные.
Бинаризация—преобразование цветных изображений или изображений в градациях серого в черно-белое. Главный параметр бинаризации—порог: значение, с которым сравнивается яркость пикселя для последующего отнесения пикселя к черному или белому региону.
Глобальная бинаризация—процесс преобразования, при котором порог остается неизменным для всей области изображения.
Локальная (адаптивная) бинаризация—процесс, при котором изображение разделяется на фрагменты, для каждого из которых вычисляется свой порог.
Общая информация
Система SecureTower позволяет осуществлять анализ текста, переданного в виде изображения. При обнаружении таких данных система выполняет распознавание изображения и анализ текстовой составляющей и применяет к распознанным данным политики безопасности, установленные в Консоли пользователя.
Сервер распознавания изображений SecureTower включает 2 встроенных средства оптического распознавания: Nicomsoft OCR и Tesseract.
Кроме того, существует возможность приобретения лицензии, включающей права на использование ABBYY FineReader.
Для распознавания файлов со значительными дефектами изображений предусмотрена возможность тонкой настройки средств распознавания.
Для настройки параметров распознавания перейдите в модуль Распознавание изображений Консоли администратора.
Внимание!
По умолчанию распознавание изображений и печатей отключено в настройках Центрального сервера. Для активации распознавания отметьте соответствующие опции на вкладке Распознавание в окне управления Центральным сервером.
Расширенные настройки сервера
Для изменения расширенных настроек Сервера распознавания изображений, установленных по умолчанию:
- В блоке Средство распознавания изображений нажмите кнопку Расширенные настройки.
- В открывшемся окне Расширенные настройки установите следующие параметры:
- В блоке Настройки интерфейса введите адрес и порт, прослушиваемые по умолчанию Сервером распознавания изображений для взаимодействия с другими компонентами системы.
- Для передачи данных по зашифрованному каналу отметьте опцию Использовать SSL-шифрование. Если установленный по умолчанию SSL-порт 20023 уже используется, укажите порт, который будет использоваться для установления защищенного соединения.
- В блоке Настройки распознавания:
- В поле Максимальный объем документов в очереди (МБ) установите предельный объем, при достижении которого Сервер распознавания перестанет принимать новые данные. Данные будут оставаться на Центральном сервере до освобождения очереди.
- В поле Максимальное количество документов в очереди установите предельное количество, при достижении которого Сервер распознавания перестанет принимать новые данные. Данные будут оставаться на Центральном сервере до освобождения очереди.
- Задайте число потоков для обработки текста, учитывая возможности системы. Увеличение количества потоков повышает скорость распознавания, но, если число потоков превышает возможности системы, скорость распознавания снижается.
- Задайте число потоков для обработки печатей, учитывая возможности системы. Увеличение количества потоков повышает скорость распознавания, но, если число потоков превышает возможности системы, скорость распознавания снижается.
- В блоке Настройки распознавания документа:
- В поле Максимальное время распознавания (сек) введите время, по истечении которого сервер остановит распознавание документа. Информация о прекращении распознавания будет отправлена Центральному серверу. Документ будет считаться нераспознанным, помещен в базу данных в оригинальном формате. В результатах поиска такой документ будет отображаться как графический файл.
- Выберите область распознавания Все страницы или Число страниц с начала документа. При выборе последней опции в числовом поле введите число страниц, которые будут распознаны и сохранены перед остановкой распознавания.
Для возврата к настройкам по умолчанию нажмите Сброс настроек.