АВТОМАТИЗАЦИЯ РАБОТЫ С НЕСТРУКТУРИРОВАННЫМИ ДОКУМЕНТАМИ НА ПЛАТФОРМЕ OPENTEXT
На работу с неструктурированными бумажными документами уходит много времени. При этом часто встречаются ошибки, связанные с человеческим фактором.
Компания Логстрим предлагает автоматизацию работы с неструктурированными документами и документами с таблицами.
01
Основные функции модуля
Для классификации сложных документов и извлечения из них данных разработан отдельный модуль платформы. Он классифицирует и распознает документы при помощи системы на основе искусственного интеллекта, анализируя заложенные в систему примеры и разбирая текст внутри документа.
Нормализует текст Unicode;
Упрощает пунктуацию, диакритические знаки;
Разбивает текст документа на предложения, используя пунктуацию;
Распознает поля вне зависимости от их расположения на странице (координат);
Распознает информацию табличной части (игнорирует графические линии);
Выполняет поиск в предложениях уже известных шаблонов /токенов /фраз в обученных контекстах;
Форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем.
Нормализует текст Unicode;
Упрощает пунктуацию, диакритические знаки;
Разбивает текст документа на предложения, используя пунктуацию;
Распознает поля вне зависимости от их расположения на странице (координат);
Распознает информацию табличной части (игнорирует графические линии);
Выполняет поиск в предложениях уже известных шаблонов /токенов /фраз в обученных контекстах;
Форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем.
02
Основные возможности
Модуль включает механизм поиска ключевых значений в тексте документов, основанный на анализе контекста самого текста — Text Content Locator (TCL). Он обладает простым интерфейсом и позволяет производить следующие действия:
- Распознавать и извлекать неструктурированные данные (формат данных переменчив: имена, адреса и т.п.);
- Распознавать и извлекать данные в неструктурированных документах (расположение данных в документе не определено);
- Производить простое обучение системы;
- Динамическая адаптация системы к разнообразию форм документов;
- Извлечение данных на основе заложенных правил или автоматический выбор результата с наибольшей аккуратностью распознавания.
03
Преимущества от внедрения:
Многоканальный ввод;
Бизнес-правила;
Нормализация документов;
Динамический и гибкий экспорт;
Классификация и разделение документов;
Распознавание и валидация;
Проверки, интеграции;
Автообучение;
Процессная аналитика;
Всесторонняя визуализация;
Отчеты и дашборды;
В режиме реального времени.
Многоканальный ввод;
Безопасные каналы передачи данных;
Бизнес-правила;
Нормализация документов;
Динамический и гибкий экспорт;
Классификация и разделение документов;
Распознавание и валидация;
Проверки, интеграции;
Автообучение;
Процессная аналитика;
Всесторонняя визуализация;
Отчеты и дашборды;
В режиме реального времени.
04
Этапы распознавания неструктурированных документов
01
Ввод документов в систему
- Системы OCR интегрируются с любыми устройствами ввода данных (МФУ, сканеры, смартфоны и пр.).
- Интеграционный модуль со встроенной технологией eVRS захватывает документы с электронных средств коммуникации (e-mail и иные сетевые ресурсы).
02
Этап сканирования
- Определяется тип пакета, маршрут обработки и пользовательские права. В зависимости от вида документа зависит способ обработки скан-образа.
- Поток скан-образов разделяется на отдельные документы в момент сканирования по различным критериям (количество страниц, штрих-код, идентификационные слова/изображения).
- На основе данных пакеты отправляются на сервер обработки – отдельный модуль платформы.
- Происходит классификация и распознавание документов при помощи системы на основе искусственного интеллекта.
- Анализируется соответствие с заложенными в систему примерами, разбирается текст внутри документа.
- При помощи машинного обучения система динамически адаптируется к разнообразию форм документов.
03
Извлечение
- Извлечение данных производится одним или несколькими локаторами, затем выбирается результат с наибольшей аккуратностью распознавания.
- Происходит форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем. Возможно создание предустановленных шаблонов и автоматизированных правил по проверке и корректировке формата данных.
Модуль может выполнять сверки между документами в комплекте, а также имеет механизм поиска ключевых значений в тексте документов, основанным на анализе контекста самого текста-Text Content Locator (TCL).
04
Этапы распознавания неструктурированных документов
- Системы OCR интегрируются с любыми устройствами ввода данных (МФУ, сканеры, смартфоны и пр.).
- Интеграционный модуль со встроенной технологией eVRS захватывает документы с электронных средств коммуникации (e-mail и иные сетевые ресурсы).
- Определяется тип пакета, маршрут обработки и пользовательские права. В зависимости от вида документа зависит способ обработки скан-образа.
- Поток скан-образов разделяется на отдельные документы в момент сканирования по различным критериям (количество страниц, штрих-код, идентификационные слова/изображения).
- На основе данных пакеты отправляются на сервер обработки – отдельный модуль платформы.
- Происходит классификация и распознавание документов при помощи системы на основе искусственного интеллекта.
- Анализируется соответствие с заложенными в систему примерами, разбирается текст внутри документа.
- При помощи машинного обучения система динамически адаптируется к разнообразию форм документов.
- Извлечение данных производится одним или несколькими локаторами, затем выбирается результат с наибольшей аккуратностью распознавания.
- Происходит форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем. Возможно создание предустановленных шаблонов и автоматизированных правил по проверке и корректировке формата данных.
- Системы OCR интегрируются с любыми устройствами ввода данных (МФУ, сканеры, смартфоны и пр.).
- Интеграционный модуль со встроенной технологией eVRS захватывает документы с электронных средств коммуникации (e-mail и иные сетевые ресурсы).
- Определяется тип пакета, маршрут обработки и пользовательские права. В зависимости от вида документа зависит способ обработки скан-образа.
- Поток скан-образов разделяется на отдельные документы в момент сканирования по различным критериям (количество страниц, штрих-код, идентификационные слова/изображения).
- На основе данных пакеты отправляются на сервер обработки – отдельный модуль платформы.
- Происходит классификация и распознавание документов при помощи системы на основе искусственного интеллекта.
- Анализируется соответствие с заложенными в систему примерами, разбирается текст внутри документа.
- При помощи машинного обучения система динамически адаптируется к разнообразию форм документов.
- Извлечение данных производится одним или несколькими локаторами, затем выбирается результат с наибольшей аккуратностью распознавания.
- Происходит форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем. Возможно создание предустановленных шаблонов и автоматизированных правил по проверке и корректировке формата данных.
05
Пример обработки неструктурированных форм
Проблема
- Поле типа «услуги» располагается в табличной части и имеет много строк, поэтому OCR-локатор не дает 100% уверенности в правильном распознавании.
Решение
- Создаем текстовый список всех встречаемых видов услуг аренды.
- Используем технологию нечеткого поиска в словаре.
- Система выполняет кросс-проверку распознанных OCR и учитывает степень близости словарных слов.
Словарь
- Услуги по размещению оборудования;
- Услуги по договору аренды;
- Услуги аренды нежилых помещений;
- Услуги аренды;
- Субаренда недвижимого имущества;
- Субаренда части земельного участка.
Результат: 90% уверенности в распознавании поля.
Наши клиенты считают временные и трудовые затраты на работу с бумажной документацией нерезультативными. Для того, чтобы минимизировать негативные эффекты, мы внедряем в бизнес-процессы OCR-системы.