ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ

Назначение и технология работы системы массового ввода бумажных документов

Одной из основных задач, связанных с технологиями документооборота, является массовый ввод бумажных документов в архивную систему или систему управления документами и организация последующего к ним доступа. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое количество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных областях можно привести систему ввода и обработки «Платежных поручений» в банке, систему ввода «Налоговых деклараций», систему ввода и проверки бухгалтерских документов в Пенсионном фонде.

Для организации обработки большого количества бумажных документов и перевода их в электронную форму необходимо разработать систему массового ввода документов (СМВ), которая будет способна работать как с одним, так и с несколькими тысячами бумажных документов в день. При реализации технологии массового ввода документов можно рассматривать два основных класса задач:

  • • извлечение данных из бумажных документов, когда пользователей интересуют только извлеченные структурированные данные, а собственно сами изображения документов их не интересуют, т.к. не используются для последующего хранения и доступа;
  • • извлечение данных из бумажных документов с сохранением изображения документа (например, «Платежное поручение» клиента), когда имеет смысл после извлечения данных сохранить изображение документа для того случая, при котором потребуется анализ исходного документа. При этом извлеченные данные можно использовать двояко: во-первых, эти данные имеет смысл напрямую загружать в банковскую систему, а во-вторых, их можно использовать для организации хранения и быстрого поиска изображений.

При проектировании системы ввода бумажных документов решается следующая совокупность проблем:

  • • определение состава операций, которая должна выполнять система;
  • • выбор технических средств реализации выполнения этих операций;
  • • выбор и настройка программного обеспечения;
  • • разработка технологической документации.

Рассмотрим содержание основных операций автоматизированного ввода бумажных документов.

Автоматизированное чтение и ввод документов на бумажном носителе включают в себя операции, которые можно объединить в два этапа:

  • 1. подготовительный;
  • 2. основной.

Подготовительный этап - очень важная фаза процесса ввода документов, которая обеспечивает получение достоверных отсканированных изображений, сохраняемых в системе, и включает в себя две операции:

  • • подготовку документов для сканирования;
  • • выполнение описания настроек системы на конкретную форму документа.

Подготовка документов для сканирования предполагает выполнение следующих действий:

  • • определение состава документов, подлежащих сканированию;
  • • выбор конкретных областей в каждом документе для сканирования;
  • • определение технологической цепочки движения документа по рабочим местам;
  • • открытие конвертов, удаление скрепок или других предметов, мешающих сканированию;
  • • подготовка пакетов документов для сканирования;
  • • выписка ярлыков на каждый пакет документов с указанием кода документа и количества документов каждого типа в пакете.

Выполнение описания настроек системы на конкретную форму документа предполагает выполнение трех операций:

  • • составление настройки на форму документа;
  • • разработка настройки на модель ввода;
  • • составление настройки соответствия полей формы документа и полей индексации для ввода в информационную базу или архив.

В основе выполнения настройки на форму документа лежит понятие форматированного (структурированного) документа (ФД). Типичными примерами форматируемых документов являются «Платежные поручения», «Прайс-листы», «Декларации о доходах», «Счета» и т.д. Основной структурной единицей форматируемого документа является поле, поэтому каждый форматируемый документ можно представить как сумму полей.

Каждое поле описывается в двух аспектах: визуально или геометрически, и содержательно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительными линиями, оригинальным типом шрифта, уровнем фона, цветом и т.д.

Содержательная часть характеризуется назначением поля, словарным и алфавитным составом, а также некоторыми законами построения текста, например, в поле почтового адреса должны быть сведения о городе, улице, доме и проч.

Геометрические и содержательные характеристики полей могут быть как абсолютно независимыми, так и взаимосвязанными. Например, в приходном ордере рядом с полями «количество» и «цена» находится поле «сумма».

Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам. По способу нанесения информации можно выделить документы, в которых используются метки, печатный или рукописный тексты. Так, например, «Избирательные бюллетени» используют меточный способ, в то время как «Прайс-листы» - печатный, а первичные бухгалтерские документы - в основном рукописный.

Выполнение описания настроек системы на конкретную форму документа предполагает также выполнение разработки настройки на модель ввода документа в информационную базу или в электронный архив и составление настройки соответствия полей формы документа и полей индексации для ввода в информационную базу или архив. Построение этих настроек опирается на существование трех подходов к вводу данных в базу:

  • • Ввод ключевых слов. В этом случае одно или несколько ключевых слов будет использоваться в качестве индексов для конкретного изображения. В дальнейшем возможен быстрый доступ к изображению документа с применением введенных ключевых слов - индексов.
  • • Ввод всего текста документа. Производится ввод всех слов документа и после этого возможно осуществление полнотекстового поиска изображения документа с помощью полнотекстового индекса, составляемого для этого документа. Этот метод может применяться при необходимости получения текстового варианта документа.
  • • Формоориентированный ввод данных. Данный метод используется для полной замены ручного ввода данных в компьютерные системы и в основном применяется для ввода данных из форм (стандартных, однотипных документов). В этом случае атрибуты документа будут использованы для составления индекса документа для его поиска и хранения в базе или архиве.

Основной этап автоматизированного ввода бумажных документов включает в себя выполнение таких операций как:

  • • сканирование;
  • • контроль качества отсканированных изображений и повторное сканирование;
  • • предварительная обработка текста;
  • • основная обработка текста документа;
  • • контроль качества распознавания и редактирование;
  • • индексирование документа и загрузка.

Сканирование - это очень ответственная операция, и, следовательно, к выбору конкретной модели сканера необходимо подходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходимое разрешение изображения, надежность получаемых изображений и другие.

В настоящее время на рынке технических средств предлагается достаточно большое количество различных моделей сканеров, которые можно классифицировать по производительности на следующие виды:

  • • персональные;
  • • настольные;
  • • высокопроизводительные потоковые.

По качеству сканирования, зависящего от разрешающей способности, их можно разделить на следующие группы (табл. 2):

  • • с низкой разрешающей способностью (200-400 точек на дюйм);
  • • со средней разрешающей способностью (600-800 точек / дюйм);
  • • с высокой разрешающей способностью (1600-2800 точек / дюйм);
  • • специально го назначения.

Ввод документов предъявляет достаточно низкие требования к качеству сканирования, обычно бывает достаточно разрешения 200-300 точек / дюйм. Профессиональные издательские сканеры имеют разрешение порядка 1600-2800 точек / дюйм и даже персональные сканеры имеют разрешение порядка 600-800 точек / дюйм. Единственная отличительная особенность - автоматическая подача страниц документов и высокая скорость сканирования (от 10 до 200 листов формата А4 в минуту). Данные высокоскоростные сканеры предназначены для ввода разброшюрованных документов.

Для ввода ветхих документов применяют сканеры с вакуумным прижимом документов, которые предъявляют весьма низкие требования к документу и обрабатывают его в щадящем режиме. В совсем редких случаях, когда документ настолько стар, что его нельзя помещать даже в планшетный сканер, применяют сканеры специального назначения. Такие сканеры позволяют сканировать не полностью раскрытые книги и документы плохого качества. Скорость ввода у таких устройств - 0,25-3 страницы в минуту.

Обработка данных, содержащихся в документе, предполагает выполнение следующих основных операций:

  • • предварительная обработка изображений;
  • • основная обработка изображений документа.

Предварительная обработка изображения документов используется для улучшения полученных изображений и необходима по следующим причинам:

  • • Улучшение читаемости изображения. Обработанные изображения более понятны при визуальном просмотре.
  • • Повышение точности распознавания. Применение специальных методов улучшения изображения может значительно повысить точность оптического распознавания символов.
  • • Уменьшение размера изображения. Размер файлов обработанных изображений может быть меньше первоначального размера на 80%. Под уменьшением размера понимается как простое сжатие файла, так и удаление ненужной информации.

Предварительная обработка изображения документов предусматривает использование следующих методов: очищение изображения применяется для снятия с изображений отдельных элементов (например, точки, пятна); снятие фона и выделений (например, с ценных бумаг); восстановление букв и символов - если они оказываются пересеченными элементами формы, например, линией, (для последующего распознавания символа необходимо удалить линию, таким образом, чтобы буква не пострадала); вращение изображения на произвольный угол; масштабирование изображения; регулирование уровня серого; компрессия и декомпрессия изображения.

Процесс основной обработки документов предусматривают выполнение операций:

  • • нахождения полей (сегментация документа);
  • • распознавание текста документов.

Они могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков.

Распознавание документа, анализ содержания документа и извлечение данных может осуществляются с помощью следующих систем распознавания текстов, отличающихся по стоимости, качеству и скорости работы:

  • OCR (Optical Character Recognition) - технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление;
  • ICR (Intelligent Character Recognition) - распознавание раздельных печатных символов, написанных от руки;
  • OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);
  • Стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах;

Существует несколько подходов к реализации технологий ввода рукописных символов:

  • • Распознавание on-line осуществляется в тот момент, когда человек пишет специальным пером на сенсорном экране, воспринимающем дополнительную информацию о траектории движения руки, наклоне пера, силе нажима и т.д. При меняется в основном в персональных электронных записных книжках типа ЗСот PalmPilot для рукописного ввода числовых и символьных данных.
  • • Распознавание off-line - распознавание произвольного рукописного текста, введенного в компьютер через сканер.

Распознавание рукопечатных символов является подмножеством технологии распознавания off-line. Этот метод применяется, как правило, для ввода стандартных форм. Распознавание рукописного текста значительно сложнее, чем печатного, поскольку если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше.

Для OCR-систем в основном используются три технологии распознавания напечатанного текста:

  • • матричная (Matrix-based);
  • • описательная (основана на описании правил построения символов);
  • • нейронная (основана на использовании нейронных сетей).

Строгое соблюдение стандарта внешнего вида формы существенно повышает точность распознавания полей документа.

Контроль распознанных данных является следующей операцией, реализуемой системой ввода.

Системы автоматического распознавания обычно вместе с результатом возвращают так называемую «степень уверенности». Для повышения надежности данных после распознавания применяются определенные пользователем автоматизированные методы проверки данных (например, можно проверить, имеется ли распознанная информация в базе данных, и если нет, то пометить поле как некорректное). Для повышения надежности данных используются дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Помимо этого, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

Если данные после распознавания помечены как не корректные, то они автоматически направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответствии с правилами, определенными пользователем.

Индексирование и загрузка данных. Заключительная операция процесса - это экспорт изображений документов и сопутствующих данных в конкретную систему документооборота или базу данных и индексирование. Основными требованиями к экспорту являются поддержка различных форматов данных и его скорость.

После того, как документ распознан, он поступает в базу данных или в систему управления документами, где проводится его индексирование. В отличие от обычной системы распознавания система ввода стандартных форм использует формальное описание исходной формы документа, описание модели ввода и модели соответствия полей ввода и индексирования. Это позволяет автоматически производить индексирование документов и загружать информацию в поля базы данных или архив без участия оператора.

В зависимости от конкретной задачи и типа документа, он может быть загружен в полнотекстовый модуль или информация из него извлеченная должна будет попасть в систему атрибутивной индексации (например, значения из полей формы попадают в карточку документа). При этом, может быть сохранено изображение документа.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >