Amazon запустила новый облачный ИИ-инструмент для обработки текста

30 мая 2019, 12:17
Amazon запустила новый облачный ИИ-инструмент для обработки текста

Amazon запустила новый сервис Textract для пользователей облачной платформы AWS, который может обрабатывать миллионы страниц всего за несколько часов и в отличие от базовых OCR-систем представляет извлечённый текст в аккуратной форме, пишет VentureBeat.

Textract способен не только извлекать текст из документов, но и распознавать их формат и содержание, что обеспечивает оптимальную обработку. Например, он различает таблицы и формы в документах, в том числе в чеках, налоговой документации или перечнях запасов, а также поддерживает графические форматы. Далее инструмент структурирует данные без участия человека.

Многие OCR-программы подают извлечённый из таблиц текст в хаотичном виде, и компаниям приходится форматировать его вручную, что дорого и занимает массу времени. Textract обрабатывает миллионы страниц всего за несколько часов, что позволяет снизить затраты. Кроме того, пользоваться им можно даже не имея опыта работы с машинным обучением, которое лежит в основе сервиса.

По словам Amazon, он может распознавать такую информацию, как имена и номера соцстрахования, что позволяет ему преобразовывать табличные данные из pdf-файлов в доступные для поиска электронные таблицы. Сейчас Textract доступен в ряде штатов США и Ирландии, но в течение года должен охватить больше стран.

подписка на главные новости 
недели != спам
# ит-новости
# анонсы событий
# вакансии
Обсуждение