Amazon запустила новый сервис Textract для пользователей облачной платформы AWS, который может обрабатывать миллионы страниц всего за несколько часов и в отличие от базовых OCR-систем представляет извлечённый текст в аккуратной форме, пишет VentureBeat.
Textract способен не только извлекать текст из документов, но и распознавать их формат и содержание, что обеспечивает оптимальную обработку. Например, он различает таблицы и формы в документах, в том числе в чеках, налоговой документации или перечнях запасов, а также поддерживает графические форматы. Далее инструмент структурирует данные без участия человека.
Многие OCR-программы подают извлечённый из таблиц текст в хаотичном виде, и компаниям приходится форматировать его вручную, что дорого и занимает массу времени. Textract обрабатывает миллионы страниц всего за несколько часов, что позволяет снизить затраты. Кроме того, пользоваться им можно даже не имея опыта работы с машинным обучением, которое лежит в основе сервиса.
По словам Amazon, он может распознавать такую информацию, как имена и номера соцстрахования, что позволяет ему преобразовывать табличные данные из pdf-файлов в доступные для поиска электронные таблицы. Сейчас Textract доступен в ряде штатов США и Ирландии, но в течение года должен охватить больше стран.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.