Электронный считыватель текста для кого предназначен
Перейти к содержимому

Электронный считыватель текста для кого предназначен

  • автор:

Электронный считыватель текста для кого предназначен

  • УСЛУГИ
  • Распознавание текста документов

    • Услуги сканирования
    • Распознавание текста документов
    • Распознавание и оцифровка книг
    • Обработка анкет
    • Ввод данных и информации
    • Создание электронного архива документов
    • Создание электронных библиотек
    • Создание электронного каталога
    • Преобразование информации
    • Создание электронных книг
    • Аутсорсинг бизнес процессов
    • Аутстаффинг
    • Хранение и уничтожение документов
    • Архивная обработка документов

    Популярное

    • Сканирование документов от 1,5 руб./страница
    • Сканирование книг от 4 руб./страница
    • Сканирование фотографий от 10 руб./фото
    • Распознавание текста от 2 руб./стр
    • Сканирование чертежей формата А1 от 60 руб./стр
    • Обработка анкет от 2 руб./анкета

    Попробуй бесплатно наш новый продукт E-Arch Online

    3 руб. за одну страницу исходного документа.

    Стоимость распознавания с ручной настройкой, проверкой и форматированием в среднем составляет
    от 16 руб. до 39 руб. за одну страницу исходного документа.

    Она зависит от времени потраченного оператором на обработку одной страницы, которое в свою очередь зависит от состояния исходного изображения (сильный фон, копия, недостаточная контрастность) и сложности структуры самого документа (наличие таблиц, рисунков, сносок, многоязычность и т.п.)

    В таблице представлены примеры изображений и стоимости их распознавания:

    Исходная страница

    Характеристика

    Стоимость

    16 руб. за страницу

    23 руб. за страницу

    Сложная страница 1 степени

    39 руб. за страницу

    Сроки

    В среднем на распознавание одного документа в 200-300 страниц, или книги такого же объёма уходит от 2 до 5 рабочих дней.

    На крупных проектах большой штат позволяет нам обрабатывать до нескольких тысяч страниц в день.

    Почему мы?

    Наша компания профессионально предоставляет услуги распознавания текста документов, начиная с 2006 года. За это время мы распознали сотни тысяч страниц документов.

    Наши клиенты, как правило, обращаются к нам снова и снова и вот почему:

    1. Большой опыт (наши операторы имеют стаж работы от 2-х до 10 лет)
    2. Высокое качество
    3. Разумные цены
    4. Постоплата (вы получаете результат и только после этого оплачиваете)
    5. Бережное обращение с документами

    Этапы распознавания текста

    Распознавание текста документов проводится в несколько этапов:

    1. Сканирование оригинала. Обычно этот процесс осуществляется в черно-белом режиме, однако при необходимости мы выполняем его в цвете или градациях серого.
    2. Распознавание структуры страниц. Для этого наши специалисты используют специальное программное обеспечение — Abbyy Finereader. На данный момент эта система считается лучшей, и ее алгоритм непрерывно совершенствуется, что позволяет обрабатывать документы любой сложности и практически в любом состоянии.
    3. Распознавание текста. На этом этапе особенно важно правильно установить параметры программы Abbyy Finereader, чтобы минимизировать ошибки распознавания. Их количество зависит от таких факторов, как полиграфическое качество исходника, размер и контрастность текста, сложность взаимного размещения элементов на странице.
    4. Проверка правильности распознавания. Выполняется визуально с целью выявления неправильно распознанных символов.
    5. Проверка орфографических ошибок. На четвертом этапе, как правило, не удается избавиться от всех ошибок, поэтому дополнительно мы проверяем орфографию, например, в текстовом редакторе Microsoft Word.
    6. Форматирование и оформление электронного документа. В текстовом редакторе Microsoft Word устанавливается единый формат и стиль документа, размер и тип шрифта, производится размещение и структурирование таблиц. При необходимости вручную вводится текст, формулы, таблицы, которые не удалось распознать автоматически. Мы не выполняем полностью автоматическое распознавание документа, а работаем в полуавтоматическом режиме с обязательным проведением корректировки после каждого этапа обработки. В результате в электронной версии не полностью сохраняется форматирование оригинала, но на выходе получается качественный, легко читаемый документ.

    Работая с системой распознавания Abbyy Finereader много лет, наши специалисты детально изучили ее функционал и выработали особые приемы и методы обработки исходников, позволяющие проводить распознавание документов различных типов и в любом состоянии.

    Благодаря современному оборудованию, идеально настроенному программному обеспечению и четко отработанному технологическому процессу себестоимость работ значительно уменьшилась, поэтому мы имеем возможность предложить заказчикам весьма привлекательные цены.

    Наши цены

    Автоматическое распознавание за страницу (без проверки и корректировки результатов) 3р.
    Распознавание. Простая страница* (за страницу) 16р.
    Распознавание. Стандартная страница* (за страницу) 23р.
    Распознавание. Сложная страница 1 степени* (за страницу) 39р.
    Распознавание. Сложная страница 2 степени* (за страницу) 56р.
    Распознавание. Сложная страница 3 степени* (за страницу) 85р.
    Распознавание. Сложная страница 4 степени* (за страницу) 115р.
    Сверхсложная страница* (за страницу) 190р.

    Наценки
    к базовой стоимости распознавания текста

    Наличие на странице текста на иностранном языке (коэффициент) умнож. на 1,3
    Распознавание ксерокопии или наличие на странице засветов или шумов (коэффициент) умнож. на 1,5
    Наличие 2-х колонок текста на странице (коэффициент) умнож. на 1,3
    Наличие 3-х колонок текста на странице (коэффициент) умнож. на 1,5
    Ввод формул в редакторе формул (за элемент) 35р.

    * Порядок определения сложности страницы при распознавании текста

    Тип сложности страницы определяется в зависимости от количества баллов рассчитанных для страницы

    Кол-во баллов Тип страницы
    от до
    0 0 Простая страница
    1 3 Стандартная страница
    4 6 Сложная страница 1
    7 10 Сложная страница 2
    11 16 Сложная страница 3
    17 25 Сложная страница 4
    26 Сверхсложная страница

    Количество баллов сложности для страницы вычисляется суммированием значений расчетных баллов для каждого элемента страницы

    Элемент страницы Кол-во расчетных баллов Комментарий
    Простой рисунок 1
    Простая таблица 2 Небольшая таблица без объединения ячеек
    Сложная таблица 6 Таблица на всю страницу, или таблица с объединением ячеек
    Наличие сносок 4
    Верхний или нижний регистр 0,5
    Мелкий текст 6

    Типы исходных материалов для определения стоимости оцифровки

    Простой текст — единый текстовый фрагмент с простым стилем оформления.

    Простая таблица — структура данных из 1-12 строк, с однотипным форматированием ячеек и текстом в них.

    Сложная таблица — структура данных, занимающая всю страницу, не разбитая на ячейки либо с неоднородными (объединенными) ячейками и текстом.

    Рисунок — графический элемент, как правило, с подписью.

    Формула — комбинация сложных символов и элементов, отображение которой возможно только с помощью специального редактора формул.

    Закажите эту услугу со скидкой!

    Для детального обсуждения условий сотрудничества, получения консультации и оформления заказа на любую из наших услуг:

    • Оставаясь на рабочем месте
    • В удобное время
    • За считанные минуты

    Делать самому или доверить профессионалам?

    Ответ на этот вопрос зависит от того насколько вы цените своё время.

    Пример

    Для работы с фрагментами текста из книг и других документов вам необходимо преобразовать в электронную форму 50 печатных страниц. Предположим, что оборудование для сканирования и программное обеспечение для распознавания текста есть в наличии. Если вы не занимаетесь этим регулярно, то на выполнение работы вам потребуется не менее 9 часов.

    Однако вы можете предоставить исходные материалы нашим специалистам и:

    1. получить качественный результат на следующий день в удобной вам форме.
    2. подождать около 20 минут (время сканирования) и забрать оригиналы, а готовый электронный документ получить на указанный адрес электронной почты или скачать с нашего FTP-сервера.

    Стоимость наших услуг составит приблизительно 800р.1500р. для 50 страниц в зависимости качества исходников.

    Таким образом, при самостоятельном выполнении этой работы вы сэкономите 90-170 рублей за один час своей работы.

    Решайте сами, стоит ли эта сумма потраченного времени.

    Страница сгенерирована за 0.09 секунд !

    Методы распознавания текстов

    Несмотря на то, что в настоящее время большинство документов составляется на компьютерах, задача создания полностью электронного документооборота ещё далека до полной реализации. Как правило, существующие системы охватывают деятельность отдельных организаций, а обмен данными между организациями осуществляется с помощью традиционных бумажных документов.

    Задача перевода информации с бумажных на электронные носители актуальна не только в рамках потребностей, возникающих в системах документооборота. Современные информационные технологии позволяют нам существенно упростить доступ к информационным ресурсам, накопленным человечеством, при условии, что они будут переведены в электронный вид.

    Наиболее простым и быстрым является сканирование документов с помощью сканеров. Результат работы является цифровое изображение документа – графический файл. Более предпочтительным, по сравнению с графическим, является текстовое представление информации. Этот вариант позволяет существенно сократить затраты на хранение и передачу информации, а также позволяет реализовать все возможные сценарии использования и анализа электронных документов. Поэтому наибольший интерес с практической точки зрения представляет именно перевод бумажных носителей в текстовый электронный документ.

    На вход системы распознавания поступает растровое изображение страницы документа. Для работы алгоритмов распознавания желательно, чтобы поступающее на вход изображение было как можно более высокого качества. Если изображение зашумлено, нерезко, имеет низкую контрастность, то это усложнит задачу алгоритмов распознавания.

    image

    Поэтому перед обработкой изображения алгоритмами распознавания проводится его предварительная обработка, направленная на улучшение качества изображения. Она включает фильтрацию изображения от шумов, повышение резкости и контрастности изображения, выравнивание и преобразование в используемый системой формат (в нашем случае 8-битное изображение в градациях серого).

    Подготовленное изображение попадает на вход модуля сегментации. Задачей этого модуля является выявление структурных единиц текста – строк, слов и символов. Выделение фрагментов высоких уровней, таких как строки и слова, может быть осуществлено на основе анализа промежутков между тёмными областями.
    К сожалению, такой подход не может быть применён для выделения отдельных букв, поскольку, в силу особенностей начертания или искажений, изображения соседних букв могут объединяться в одну компоненту связанности (рис. 1) или наоборот — изображение одной буквы может распадаться на отдельные компоненты связанности (рис. 2). Во многих случаях для решения задачи сегментации на уровне букв используются сложные эвристические алгоритмы.

    image

    Рисунок 1. Объединение нескольких букв в одну компоненту связанности.

    image

    Рисунок 2. Распадение изображений букв на несвязанные компоненты вследствие низкого качества сканирования.

    Полагаем, что для принятия окончательного решения о прохождении границы букв на таком раннем этапе обработки, системе распознавания недостаточно информации. Поэтому задачей модуля сегментации на уровне букв в разработанном алгоритме является нахождение возможных границ символов внутри буквы, а окончательное решение о разбиении слова принимается на последнем этапе обработки, с учётом идентификации отдельных фрагментов изображения как букв. Дополнительным преимуществом такого подхода является возможность работы с начертаниями букв, состоящих из нескольких компонент связанности без специальной обработки таких случаев.

    Результатом работы модуля сегментации является дерево сегментации – структура данных, организация которой отражает структуру текста на странице. Самому верхнему уровню соответствует объект страница. Он содержит массив объектов, описывающих строки. Каждая строка в свою очередь включает набор объектов слов. Слова являются листьями этого дерева. Информация о возможных местах разделения слова на буквы храниться в слове, однако отдельные объекты для букв не выделяются. В каждом объекте дерева хранится информация об области, занимаемой соответствующим объектом на изображении. Данная структура легко может быть расширена для поддержки других уровней разбиения, например колонок, таблиц.

    Выявленные фрагменты изображения подаются на вход классификатора, выходом которого является вектор возможности принадлежности изображения к классу той или иной буквы. В разработанном алгоритме используется классификатор составной архитектуры, организованный в виде дерева, листьями которого являются простые классификаторы, а внутренние узлы соответствуют операциям комбинирования результатов низлежащих уровней (рис. 3).

    image

    Рисунок 3. Архитектура классификатора.

    Работа простого классификатора осуществляется в два шага (рис. 4). Сначала по исходному изображению вычисляются признаки. Значение каждого признака является функцией от яркостей некоторого подмножества пикселей изображения. В результате получается вектор значений признаков, который поступает на вход нейронной сети. Каждый выход сети соответствует одной из букв алфавита, а получаемое на выходе значение рассматривается как уровень принадлежности буквы нечёткому множеству.

    image

    Рисунок 4. Простой классификатор.

    Задачей алгоритма комбинирования является обобщение информации, поступающей в виде входных нечётких множеств и вычисление на их основе выходного нечёткого подмножества множества распознаваемых символов. В качестве алгоритмов комбинирования используются операции теории нечётких множеств (такие как t-нормы и s-нормы), выбор наиболее уверенного эксперта.

    Результатом работы классификатора является нечёткое множество, полученное в результате комбинирования на самом верхнем уровне.
    На последнем этапе принимается решение о наиболее правдоподобном варианте прочтения слова. Для этого используются уровни возможности прочтения отдельных букв, межбуквенной сегментации и частоты сочетаний букв в русском языке.

    Для оценки эффективности разработанного алгоритма было проведено сравнение с двумя существующими системами OCR. Это бесплатная open-source система CuneiForm v12 и коммерческая система ABBYY FineReader 10 Professional Edition.

    К сожалению, для оценки эффективности работы систем распознавания, обычно используются наборы символов, подготовленных иностранными специалистами, либо наборы, собранные авторами и не опубликованные в открытом доступе. Так, например, оценивая эффективность работы алгоритмов ABBYY FineReader автор использовал базы данных CEDAR, NIST, CENPARMI а также сканированные анкеты ЕГЭ. Поскольку данные базы содержат английские и/или рукописные символы, они не могут быть использованы для оценки эффективности выполнения НИР по теме «разработка алгоритма распознавания печатных кириллических символов».

    Сравнение производилось на образцах с разрешением 96 dpi и 180 dpi. В сравнении участвовал текст, состоящий из 300 слов, набранных шрифтами Arial 14pt и Times New Roman 14pt. Текст разрешением 96 dpi был создан на компьютере непосредственно в виде графического файла. Для теста с разрешением 180 dpi текст был распечатан на лазерном принтере, а затем сканирован с указанным разрешением. Фрагмент использованного текста приведен на рис. 5.

    image

    Рисунок 5. Фрагмент текста, использованного для тестирования систем распознавания.

    Результаты сравнения для 96 dpi представлены в таблице 1.

    image

    Таблица 1. Результаты распознавания текста разрешением 96 dpi.

    Результаты сравнения для текста с разрешением 180 dpi представлены в таблице 2.

    image

    Таблица 2. Результаты распознавания текста разрешением 180 dpi.

    Лучшие результаты распознавания для 96 dpi можно объяснить тем, что текущая конфигурация системы была обучена на шрифтах Times New Roman 14pt и Arial 14pt при разрешающей способности 96 dpi. Можно ожидать улучшения результатов для этого текста при добавлении в систему простых классификаторов, обученных распознавать шрифты такого размера.

    Суммарно, из 1200 слов было распознано:

    • разработанным алгоритмом: 1180 слов (98,33%);
    • системой с открытыми кодами CuneiForm: 597 слов (49,75%);
    • коммерческой системой ABBYY FineReader: 1200 слов (100%).

    Стоит отметить, что при низком разрешении, наличии большого числа шума Cuneiform не справляется с распознаванием текста, в то время как предложенный алгоритм распознает текст в таком качестве.

    В целом, можно заключить, что хотя предложенный алгоритм уступает лучшему в данном классе коммерческому продукту фирмы Abbyy, он способен распознавать текст худшего качества, чем способна распознать система c открытыми исходными кодами CuneiForm.

    Список использованной литературы.

    Квасников В.П., Дзюбаненко А.В. Улучшение визуального качества цифрового изображения путем поэлементного преобразования // Авиационно-космическая техника и технология 2009 г., 8, стр. 200-204

    Арлазаров В.Л., Куратов П.А., Славин О.А. Распознавание строк печатных текстов // Сб. трудов ИСА РАН «Методы и средства работы с документами». — М.: Эдиториал УРСС, 2000. — С. 31-51.

    Проект СПбГУ Открытый код: распознавание текстовых изображений [Электронный ресурс] — Режим доступа: ocr.apmath.spbu.ru

    Багрова И. А., Грицай А. А., Сорокин С. В., Пономарев С. А., Сытник Д. А. Выбор признаков для распознавания печатных кириллических символов // Вестник Тверского Государственного Университета 2010 г., 28, стр. 59-73

    The concept of a linguistic variable and its application to approximate reasoning, Information Sciences, 8, 199-249; 9, 43-80.

    Melin P., Urias J., Solano D., Soto M., Lopez M., Castillo O., Voice Recognition with Neural Networks, Type-2 Fuzzy Logic and Genetic Algorithms. Engineering Letters, 13:2, 2006.

    Панфилов С. А. Методы и программный комплекс моделирования алгоритмов управления нелинейными динамическими системами на основе мягких вычислений. Диссертация на соискание ученой степени кандидата технических наук. Тверь, 2005.

    • нейронные сети
    • OCR
    • распознавание текстов

    Системы распознавания текста

    Программы и системы распознавания текста (СРТ, англ. Text Recognition Systems, TRS) предназначены для сканирования текстовых данных, обработки графических данных и извлечения полезной информации из документов различных видов. С помощью данных программных продуктов часто, обрабатываются счета-фактуры, акты, накладные, квитанции, клиентские формы, опросные листы и документы сотрудников.

    Читать далее

    Сравнение Системы распознавания текста

    Выбрать по критериям:

    Подходит для
    Специалист
    Малый бизнес
    Средний бизнес
    Корпорация
    Администрирование
    Импорт/экспорт данных
    Многопользовательский доступ
    Наличие API
    Отчётность и аналитика
    Тарификация
    Ежемесячная оплата
    Ежегодная оплата
    Единовременная оплата
    Оплата потребления
    По запросу
    Развёртывание
    Сервер предприятия
    Мобильное устройство
    Персональный компьютер
    Облако (SaaS)
    Графический интерфейс
    Веб-браузер
    Поддержка языков
    Азербайджанский
    Белорусский
    Бенгальский
    Болгарский
    Венгерский
    Вьетнамский
    Грузинский
    Индонезийский
    Итальянский
    Каталонский
    Латвийский
    Монгольский
    Нидерландский
    Норвежский
    Персидский
    Португальский
    Украинский
    Французский
    Хорватский
    Английский
    Сортировать: по алфавиту по полноте сведений

    Tesseract OCR от Google

    Tesseract – это программный движок с открытым исходным кодом, позволяющий распознавать символы с поддержкой кодировки Unicode и возможностью распознавания более 130 языков, а также с возможностью дополнения для распознавания других языков. Узнать больше про Tesseract OCR

    ABBYY FineReader от ABBYY

    ABBYY FineReader – это универсальное программное приложение для распознавания текста, предназначенное для повышения производительности бизнеса, быстрого захвата документов на бумажных носителях и получения на выходе оцифрованных файлв в форматах PDF, DOC и прочих. Узнать больше про ABBYY FineReader

    Yandex Vision от Яндекс.Облако

    Yandex Vision – это онлайн-сервис визуальной аналитики, позволяющий реализовывать распознавание текста и объектов на изображениях с помощью программных моделей машинного обучения. Сервис используется на базе программного интерфейса (API). Узнать больше про Yandex Vision

    Руководство по покупке Системы распознавания текста

    1. Что такое Системы распознавания текста

    Программы и системы распознавания текста (СРТ, англ. Text Recognition Systems, TRS) предназначены для сканирования текстовых данных, обработки графических данных и извлечения полезной информации из документов различных видов. С помощью данных программных продуктов часто, обрабатываются счета-фактуры, акты, накладные, квитанции, клиентские формы, опросные листы и документы сотрудников.

    2. Обзор основных функций и возможностей Системы распознавания текста

    Администрирование Возможность администрирования позволяет осуществлять настройку и управление функциональностью системы, а также управление учётными записями и правами доступа к системе. Импорт/экспорт данных Возможность импорта и/или экспорта данных в продукте позволяет загрузить данные из наиболее популярных файловых форматов или выгрузить рабочие данные в файл для дальнейшего использования в другом ПО. Многопользовательский доступ Возможность многопользовательской доступа в программную систему обеспечивает одновременную работу нескольких пользователей на одной базе данных под собственными учётными записями. Пользователи в этом случае могут иметь отличающиеся права доступа к данным и функциям программного обеспечения. Наличие API Часто при использовании современного делового программного обеспечения возникает потребность автоматической передачи данных из одного ПО в другое. Например, может быть полезно автоматически передавать данные из Системы управления взаимоотношениями с клиентами (CRM) в Систему бухгалтерского учёта (БУ). Для обеспечения такого и подобных сопряжений программные системы оснащаются специальными Прикладными программными интерфейсами (англ. API, Application Programming Interface). С помощью таких API любые компетентные программисты смогут связать два программных продукта между собой для автоматического обмена информацией. Отчётность и аналитика Наличие у продукта функций подготовки отчётности и/или аналитики позволяют получать систематизированные и визуализированные данные из системы для последующего анализа и принятия решений на основе данных.

    Интеллектуальная система анализа и распознавания документов

    Снижение издержек за счет автоматизации ручного труда и ускорение ввода документов до 50 раз с точностью в 1.5 раза выше человека*.

    Распознавание сканов и фотографий, автоматическая классификация документов, распознавание печатных и рукописных реквизитов, таблиц, чекбоксов, штрихкодов. Проверка цвета и наличия подписей и печатей.

    Поставляется в виде SDK с API для интеграции в различные информационные системы (ERP, RPA, ECM, CRM, АБС и т.д.) и мобильные приложения. Без риска утечки данных и коммерческой тайны.

    Smart Document Engine — российская система автоматического анализа и распознавания документов для десктопных, серверных и мобильных платформ.

    Smart Document Engine – это программный инструмент для бизнеса и разработчиков, обеспечивающий высокоточное и высокоскоростное распознавание текстовых и иных данных первичных, деловых, уставных, бухгалтерских, налоговых, нотариальных, юридических, страховых и банковских документов, а также типовых анкет и форм строгой отчетности.

    Наукоемкая технология оптического распознавания символов GreenOCR®, разработанная нашими учеными, позволяет точно распознавать текст любых документов на более чем 100 языках, включая кириллицу, латиницу, арабский, персидский, урду, японский, китайский, корейский и другие. GreenOCR® обеспечивает высокую точность распознавания печатного текста (OCR), рукопечатного и рукописного заполнения полей (ICR), а также распознавание меток и чекбоксов (OMR).

    При использовании Smart Document Engine НЕ требуется выполнять дополнительных действий, связанных с получением согласия субъекта на обработку его персональных данных.

    *Замер выполнен сотрудниками компании на синтезированных изображениях УПД.

    Легкая интеграция без нарушения привычных процессов

    Smart Document Engine является уникальным инструментом, позволяющими гибко интегрировать распознавание документов в текущую деятельность компании. Программа легко и удобно встраивается в уже существующие бизнес-процессы, не нарушая привычного опыта использования. Решение доступно для интеграции с различными информационными системами, например, ECM, CRM, RPA, 1С, АБС и т.д.

    Для чего нужно распознавание документов Smart Document Engine?

    Программный продукт Smart Document Engine предназначен для автоматизации обработки и оцифровки бумажных документов, документооборота и оптимизации процессов массового ввода документов.

    Smart Document Engine решает даже на обычных мобильных телефонах задачи оптического распознавания деловых документов, которые раньше были доступны только высокопроизводительным серверам.

    Российское ПО распознавания

    Собственная разработка
    Учредители – резиденты РФ
    Поддержка
    российских ОС
    Запись 9617
    в реестре ПО

    1. Авторство технологий (патенты, интеллектуальная собственность)
    2. Собственный научный центр разработки в г. Москва
    3. Регистрация в реестре ПО РФ (№9617 от 15.03.2021)
    4. Владельцы компании — резиденты РФ
    5. Отсутствие сторонних сервисов и программных продуктов
    6. Независимость от влияния иностранных организаций и государств

    Конфиденциальность и безопасность

    Конфиденциальное и безопасное распознавание паспорта

    Программное обеспечение Smart Document Engine:

    • НЕ использует код Open Source и иностранные программные компоненты, обеспечивая технологический суверенитет
    • НЕ передает личные данные ваших клиентов на обработку в сторонние онлайн-сервисы и/или третьим лицам для ручного ввода
    • НЕ сохраняет данные: вся обработка ведется в локальной оперативной памяти устройства – 100% on-premise
    • НЕ требует сетевого соединения
    • НЕ использует технологии: HITL(human in the loop), CrowdSourcing, Mechanical Turk и аналоги, удаленных, облачных или внешних верификаторов

    Юристы предупреждают:
    вас не защитят лицензии и сертификаты сервисов распознавания при утечке данных

    Юристы предупреждают

    Никакие гарантии, сертификаты и прочие документы, предоставляемые сервисами обработки персональных данных и документов, составляющих коммерческую, служебную и государственную тайну, не защищают компании от репутационных рисков и финансовой ответственности.

    “Компании, передающие данные своих клиентов на обработку третьим лицам, в случае утечки лишаются права ссылаться на нарушение ее прав третьими лицами и всю ответственность перед контрагентами принимают на себя.” – заключили юристы компании “INTELLECT”, входящей в группу самых успешных российских юридических компаний по версии международного рейтинга The Chambers Europe.

    Широкий функционал в одном SDK

    38 типов документов “из коробки”
    Распознавание текста (OCR), таблиц и чекбоксов
    Понимание графических данных (ICR) – печатей, штампов
    Контроль цветности и заполненности
    Распознавание документов на 101 языке
    Классификация и определение типа документа
    Анализ многостраничных документов
    Считывание рукописных данных – пометки и подписи
    Работа с фото- и скан форматами
    Потоковое распознавание и сканирование
    38 типов документов “из коробки”
    Классификация и определение типа документа
    Распознавание текста (OCR), таблиц и чекбоксов
    Анализ многостраничных документов
    Понимание графических данных (ICR) – печатей, штампов
    Считывание рукописных данных – пометки и подписи
    Контроль цветности и заполненности
    Работа с фото- и скан форматами
    Распознавание документов на 101 языке
    Потоковое распознавание и сканирование

    Работает везде

    В мобильном приложении или web, серверном или десктопном решении – выбирать вам. Мы подготовили все необходимое:

    • Простая интеграция в приложения с использованием интерфейсов для языков Objective-C, Swift, C, C++, Java, C#, PHP, и Python
    • Поддержка множества операционных систем: iOS, Android, Sailfish Mobile, МОС «Аврора», Linux, Windows, macOS, Solaris и др.
    • Также доступны обертки для React Native и Flutter

    Совокупность необходимых решений.
    Или разработка на заказ под ваши задачи

    • Счета и платежки »
    • Учетные документы »
    • Анкеты и согласия »
    • Сканирование на смартфоне »
    • Первичная документация »
    • Полнотекстовое распознавание (OCR) »
    • Потоковое распознавание

    Важным аспектом Smart Document Engine является возможность создания специализированных решений для конкретных заказчиков, позволяющих производить автоматическую обработку, классификацию, распознавание и анализ бумажных и отсканированных pdf документов и форм любой сложности. Система понимает все востребованные типы документов в виде графических файлов (jpg, tiff, png, и др). Распознавание документов в PDF и других форматах выполняется после конвертации в один из поддерживаемых форматов растровых данных..

    Заказные решения позволят вашей организации снизить издержки и нагрузку на персонал, внедрив высокоэффективное и высокоточное поточное сканирование и распознавание документации, оптимизированное под конкретный поток данных и под существующие бизнес-процессы, при этом исключив передачу каких-либо данных сторонним онлайн-сервисам или третьим лицам.

    Распознавайте документ в 1 шаг

    Просто предъявите файл с фото, сканом или изображением документа, а ИИ сделает всю остальную работу:

    Распознает графические и текстовые данные, штампы и подписи; проанализирует актуальность данных и заполненность документа

    Преобразует считаные данные в текст и передаст информацию в структурированном виде в вашу совместимую систему

    Достоинства интеллектуальной обработки бухгалтерских документов

    Попробуйте качество наших технологий

    • Скачайте демоприложение, в котором все возможности собраны воедино
    • Можно на время отключить интернет, чтобы убедиться, что изображения и ваши данные не передаются
    • Извлекайте данные паспортов, удостоверений личности, банковских карт, баркодов, СТС, счетов-фактур и других деловых документов. Просто предъявив фото или файл с изображением документа.
    • Обратите внимание на высокую скорость распознавания и на измеримую вероятность точности распознавания для каждого элемента. Если SDK установлено на ваш сервер, скорость распознавания будет еще в десятки раз выше.

    Проверьте качество наших технологий

    Возможности системы распознавания Smart Document Engine

    Классификация и распознавание жестких форм

    Жесткими формами называют документы, разные экземпляры которых совпадают “на просвет” при удалении реквизитов. Классическими примерами жестких форм являются больничный лист или бланк ЕГЭ. Система распознавания документов Smart Document Engine включает в себя state-of-the-art алгоритмы быстрой локализации и типизации жестких форм на сканах, фотографиях и в видеопотоке, что позволяет осуществлять мгновенное наведение и разбор таких документов, а также верификацию их типа.

    Классификация и распознавание гибких форм

    Гибкими формами называют документы, элементы и реквизиты которых могут менять взаимное расположение на бланке. Классическими примерами гибких форм являются широко распространенные налоговые и бухгалтерские документы, такие как справка о доходах физического лица установленного образца (ранее 2-НДФЛ), бухгалтерский баланс предприятия, отчет о финансовых результатах, платежное поручение и т.п. При помощи системы Smart Document Engine можно быстро идентифицировать документы подобного рода, локализовать значимые реквизиты, провести их распознавание и анализ.

    Анализ документов произвольного вида

    Система распознавания документов Smart Document Engine позволяет создавать решения для распознавания и анализа документов произвольного вида, такие как доверенности, согласия, договора. При помощи Smart Document Engine вы можете производить классификацию таких документов, извлекать текстовые или иные реквизиты, верифицировать наличие подписей и печатей, и др.

    Поддержка сканов, фотографий и видео

    Smart Document Engine может распознавать документы и формы как на изображениях, полученных с планшетных и протяжных сканеров, так и с фото и видео, полученных при помощи смартфонов, планшетов и других мобильных устройств.

    Анализ многостраничных документов

    Smart Document Engine позволяет классифицировать и распознавать как отдельные изображения документов, анкет и форм, так и документы с множеством страниц, либо последовательности страниц содержащих несколько документов. Обработка последовательности страниц позволяет упростить процесс потокового сканирования, производить сортировку потока и проверять наличие необходимых страниц и документов (проверка комплектности).

    Распознавание текстовых реквизитов

    Стек технологий, реализованный в платформе Smart Document Engine, позволяет быстро и точно распознавать однострочные и многострочные текстовые поля на более чем 100 языках мира, извлекать реквизиты из сплошного текста, машинописные и рукопечатные поля в разграфке, и многое другое.

    Распознавание меток и чекбоксов

    Система Smart Document Engine позволяет точно и надежно распознавать метки и чекбоксы, выполненные как в печатном варианте, так и ручкой.

    Поиск и распознавание печатей

    Система Smart Document Engine оснащена модулями быстрого детектирования, локализации и классификации печатей. Помимо поиска и верификации наличия печати, платформа позволяет реализовать распознавание отдельных текстовых компонентов печатей.

    Распознавание таблиц

    Для полноценной обработки бухгалтерских, налоговых, банковских и других документов в системе Smart Document Engine реализован поиск и распознавание табличных данных. Поддерживаются как таблицы с жесткой структурой, реляционные и не реляционные, таблицы с переменным количеством столбцов, и структурированные наборы реквизитов с разграфкой.

    Контроль заполнения документа

    Система Smart Document Engine оснащена модулями быстрого детектирования, локализации и классификации печатей. Помимо поиска и верификации наличия печати, платформа позволяет реализовать распознавание отдельных текстовых компонентов печатей.

    Проверка наличия ключевых слов и словосочетаний

    В процессах анализа сложно структурированных документов для идентификации значимых фраз и параграфов, а также для обнаружения некорректных изменений в тексте печатных документов система Smart Document Engine позволяет проверять наличие ключевых слов, словосочетаний, фраз, и контролировать целостность контрольных параграфов.

    Контроль логотипов и прочих графических элементов

    Smart Document Engine позволяет детектировать, локализовать и контролировать наличие графических элементов, таких как логотипы компаний, а также важных графических полей документов, таких как фотография, вклеенная в анкету.

    Контроль отсутствия помарок, исправлений, и прочих пометок

    Система Smart Document Engine позволяет детектировать, локализовать, и распознавать помарки, зачеркивания, исправления и прочие пометки на документе с целью контроля его достоверности и извлечения дополнительной информации.

    Проверка наличия и распознавание рукописных пометок и подписей

    Smart Document Engine позволяет извлекать рукописные поля и подписи, распознавать цифровые поля, выполненные от руки в свободной форме, а также верифицировать наличие рукописных отметок и подписей.

    Контроль цветности документа

    Система Smart Document Engine позволяет определять как цветность документа в целом, так и его отдельных элементов (печатей и подписи), что позволяет распознать черно-белую копию документа даже при повторном сканировании или фотографировании.

    Анализ атрибутов текстовых полей

    Помимо распознавания текстовых полей, Smart Document Engine позволяет анализировать атрибуты полей и отдельных текстовых символов, такие как характеристики шрифта (наличие засечек, курсив, жирность), оценки однородности и монотонности и др.

    Особенности распознавания документов Smart Engines

    Скорость
    Оригинальный целочисленный конвейер обработки изображений, включающий 8- и 4-битные глубокие нейросетевые архитектуры, позволяет использовать интеллектуальное распознавание документов даже на бюджетных телефонах за счет максимального использования имеющихся аппаратных ресурсов.

    Точность
    Мы создали новое поколение технологий OCR, преодолевшее рубеж качества традиционных подходов за счет использования наших последних достижений в вычислительном интеллекте и глубоком обучении. Точность распознавания реквизитов документов доходит до 99.5% без участия человека.

    Производительность
    Высочайшая производительность достигается за счет комбинирования алгоритмов компьютерного зрения и глубокого обучения компактных нейронных сетей. Полный цикл от определения типа до распознавания всех реквизитов занимает от 2 секунд для страницы документа формата А4. Демо-версия доступна для загрузок.

    Удобство
    Наши передовые алгоритмы сами обнаруживают документ на кадре, автоматически определяют тип документа, находят реквизиты и распознают их. Система устойчива к различным геометрическим искажениям, шумам, перепадам освещения, дефектам печати и низкому разрешению. Загрузите демо-версию продукта и проверьте удобство технологии

    Поддержка Российских платформ
    Smart Document Engine — первая система распознавания документов, которая нативно (без эмуляции) поддерживает Российские аппаратные платформы “Эльбрус”, “КОМДИВ” и “Байкал”, что позволяет использовать продукт в зонах максимальной ответственности и защищенности. Система Smart Document Engine обеспечивает беспрецедентный уровень безопасности обработки данных и защиту от санкционных рисков.

    Многоплатформеность
    Smart Document Engine поддерживает широкий класс операционных систем, включая специализированные операционные системы, предназначенные для работы с персональными данными: ОС Эльбрус, РЕД ОС, ОС Атликс, Astra Linux, Cent OS, Ubuntu, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Arch Linux и другие дистрибутивы Linux, MS Windows, macOS, ОС Аврора, iOS, Android, Sailfish Mobile OS.

    Как поставляется данное программное обеспечение

    С помощью Smart Document Engine SDK вы сможете добавить функциональность глубокого анализа и распознавания документов как в ваши инфраструктурные решения для автоматизации back office, так и в мобильные приложения, для максимального упрощения удаленного автоматического ввода документов.

    Программа Smart Document Engine поставляется в виде автономного SDK (software development kit), содержащего все необходимые прекомпилированные библиотеки, документацию программного интерфейса и примеры интеграции для различных языков программирования. Для разработчиков подготовлен простой, но многофункциональный API (application programming interface), который позволяет внедрить распознавание документов в решения с использованием языков C++, C#, Java, Python и Objective-C для широкого круга операционных систем: iOS, Android, Linux, Windows, MacOS, в том числе Sailfish Mobile, МОС “Аврора”, ОС Эльбрус, РЕД ОС, Astra Linux и другие. Обеспечивается поддержка следующих аппаратных платформ: x86_64, ARM v7, v8 (Aarch32, Aarch64), MIPS, Эльбрус. Имеется возможность настройки и подключения к популярным фреймворкам RPA и продуктам 1С по запросу.

    Документы, распознаваемые “из коробки” включают в себя свидетельство о постановке на налоговый учет гражданина РФ (ИНН), справка о доходах физического лица установленного образца (ранее 2-НДФЛ), платежное поручение (форма 0401060), бухгалтерский баланс (форма 0710001), отчет о финансовых результатах (форма 0710002), заявления на выдачу загранпаспорта, форма АДИ-РЕГ, титульный лист устава, сертификат самозанятого, выписка ЕГРЮЛ, товарная накладная (ТОРГ-12), форма УПД, счет-фактура и другая первичка.

    Больше возможностей в одной интеграции

    При необходимости ввода документов, удостоверяющих личность, технология органично дополняется нашим продуктом Smart ID Engine, который с высочайшим качеством и скоростью распознает более 2484 различных типов документов. Распознавание кодифицированных объектов, таких как машиночитаемые зоны (MRZ) и баркоды, доступно за счет использования Smart Code Engine.

  • Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *