Google выпустила библиотеку TensorFlow.Text для языковых ИИ-моделей

11 июня 2019, 16:16
Google выпустила библиотеку TensorFlow.Text для языковых ИИ-моделей

Google представила TensorFlow.Text — библиотеку для предобработки языковых моделей в TensorFlow, пишет VentureBeat. Опенсорсный фреймворк машинного обучения, созданный командой Google Brain, насчитывает свыше 41 млн скачиваний.

TensorFlow.Text можно установить с помощью PIP. Библиотека способна использовать токены для разбивки и анализа такой текстовой информации, как слова, числа и пунктуация.

Сейчас TensorFlow.Text может распознавать пробелы, скрипт unicode и заданные последовательности фрагментов слов, например суффиксов и префиксов, которые Google называет «wordpiece» и использует в технологиях вроде BERT.

Библиотека поддерживает нормализацию, n-граммы и многое другое. Токенизаторы TensorFlow.Text используют RaggedTensors — новый тип тензоров для распознавания текста.

Подробнее о библиотеке можно почитать на Medium и GitHub.

Обсуждение