Автоматизация работы с неструктурированными документами. Обработка неструктурированных форм.

Logstream – автоматизация процессов обработки документов

АВТОМАТИЗАЦИЯ РАБОТЫ С НЕСТРУКТУРИРОВАННЫМИ ДОКУМЕНТАМИ НА ПЛАТФОРМЕ OPENTEXT

На работу с неструктурированными бумажными документами уходит много времени. При этом часто встречаются ошибки, связанные с человеческим фактором.

Компания Логстрим предлагает автоматизацию работы с неструктурированными документами и документами с таблицами.

01

Основные функции модуля

Для классификации сложных документов и извлечения из них данных разработан отдельный модуль платформы. Он классифицирует и распознает документы при помощи системы на основе искусственного интеллекта, анализируя заложенные в систему примеры и разбирая текст внутри документа.

Нормализует текст Unicode;

Упрощает пунктуацию, диакритические знаки;

Разбивает текст документа на предложения, используя пунктуацию;

Распознает поля вне зависимости от их расположения на странице (координат);

Распознает информацию табличной части (игнорирует графические линии);

Выполняет поиск в предложениях уже известных шаблонов /токенов /фраз в обученных контекстах;

Форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем.

Нормализует текст Unicode;

Упрощает пунктуацию, диакритические знаки;

Разбивает текст документа на предложения, используя пунктуацию;

Распознает поля вне зависимости от их расположения на странице (координат);

Распознает информацию табличной части (игнорирует графические линии);

Выполняет поиск в предложениях уже известных шаблонов /токенов /фраз в обученных контекстах;

Форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем.

02

Основные возможности

Модуль включает механизм поиска ключевых значений в тексте документов, основанный на анализе контекста самого текста — Text Content Locator (TCL). Он обладает простым интерфейсом и позволяет производить следующие действия:

  • Распознавать и извлекать неструктурированные данные (формат данных переменчив: имена, адреса и т.п.);
  • Распознавать и извлекать данные в неструктурированных документах (расположение данных в документе не определено);
  • Производить простое обучение системы;
  • Динамическая адаптация системы к разнообразию форм документов;
  • Извлечение данных на основе заложенных правил или автоматический выбор результата с наибольшей аккуратностью распознавания.

03

Преимущества от внедрения:

Многоканальный ввод;

Собственные оригинальные научно-методические и технологические подходы к решению предметных задач;

Бизнес-правила;

Нормализация документов;

Динамический и гибкий экспорт;

Классификация и разделение документов;

Распознавание и валидация;

Проверки, интеграции;

Автообучение;

Процессная аналитика;

Всесторонняя визуализация;

Отчеты и дашборды;

В режиме реального времени.

Многоканальный ввод;

Безопасные каналы передачи данных;

Бизнес-правила;

Нормализация документов;

Динамический и гибкий экспорт;

Классификация и разделение документов;

Распознавание и валидация;

Проверки, интеграции;

Автообучение;

Процессная аналитика;

Всесторонняя визуализация;

Отчеты и дашборды;

В режиме реального времени.

04

Этапы распознавания неструктурированных документов

01

Ввод документов в систему

  • Системы OCR интегрируются с любыми устройствами ввода данных (МФУ, сканеры, смартфоны и пр.).
  • Интеграционный модуль со встроенной технологией eVRS захватывает документы с электронных средств коммуникации (e-mail и иные сетевые ресурсы).

02

Этап
сканирования

  • Определяется тип пакета, маршрут обработки и пользовательские права. В зависимости от вида документа зависит способ обработки скан-образа.
  • Поток скан-образов разделяется на отдельные документы в момент сканирования по различным критериям (количество страниц, штрих-код, идентификационные слова/изображения).
  • На основе данных пакеты отправляются на сервер обработки – отдельный модуль платформы.
  • Происходит классификация и распознавание документов при помощи системы на основе искусственного интеллекта.
  • Анализируется соответствие с заложенными в систему примерами, разбирается текст внутри документа.
  • При помощи машинного обучения система динамически адаптируется к разнообразию форм документов.

03

Извлечение

  • Извлечение данных производится одним или несколькими локаторами, затем выбирается результат с наибольшей аккуратностью распознавания.
  • Происходит форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем. Возможно создание предустановленных шаблонов и автоматизированных правил по проверке и корректировке формата данных.

Модуль может выполнять сверки между документами в комплекте, а также имеет механизм поиска ключевых значений в тексте документов, основанным на анализе контекста самого текста-Text Content Locator (TCL).

04

Этапы распознавания неструктурированных документов

  • Системы OCR интегрируются с любыми устройствами ввода данных (МФУ, сканеры, смартфоны и пр.).
  • Интеграционный модуль со встроенной технологией eVRS захватывает документы с электронных средств коммуникации (e-mail и иные сетевые ресурсы).
  • Определяется тип пакета, маршрут обработки и пользовательские права. В зависимости от вида документа зависит способ обработки скан-образа.
  • Поток скан-образов разделяется на отдельные документы в момент сканирования по различным критериям (количество страниц, штрих-код, идентификационные слова/изображения).
  • На основе данных пакеты отправляются на сервер обработки – отдельный модуль платформы.
  • Происходит классификация и распознавание документов при помощи системы на основе искусственного интеллекта.
  • Анализируется соответствие с заложенными в систему примерами, разбирается текст внутри документа.
  • При помощи машинного обучения система динамически адаптируется к разнообразию форм документов.
  • Извлечение данных производится одним или несколькими локаторами, затем выбирается результат с наибольшей аккуратностью распознавания.
  • Происходит форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем. Возможно создание предустановленных шаблонов и автоматизированных правил по проверке и корректировке формата данных.
Модуль может выполнять сверки между документами в комплекте, а также имеет механизм поиска ключевых значений в тексте документов, основанным на анализе контекста самого текста-Text Content Locator (TCL).

05

Пример обработки неструктурированных форм

01

Проблема

  • Поле типа «услуги» располагается в табличной части и имеет много строк, поэтому OCR-локатор не дает 100% уверенности в правильном распознавании.
02

Решение

  • Создаем текстовый список всех встречаемых видов услуг аренды.
  • Используем технологию нечеткого поиска в словаре.
  • Система выполняет кросс-проверку распознанных OCR и учитывает степень близости словарных слов.
03

Словарь

  • Услуги по размещению оборудования;
  • Услуги по договору аренды;
  • Услуги аренды нежилых помещений;
  • Услуги аренды;
  • Субаренда недвижимого имущества;
  • Субаренда части земельного участка.

Результат: 90% уверенности в распознавании поля.
Наши клиенты считают временные и трудовые затраты на работу с бумажной документацией нерезультативными. Для того, чтобы минимизировать негативные эффекты, мы внедряем в бизнес-процессы OCR-системы.