Google представила TensorFlow.Text — библиотеку для предобработки языковых моделей в TensorFlow, пишет VentureBeat. Опенсорсный фреймворк машинного обучения, созданный командой Google Brain, насчитывает свыше 41 млн скачиваний.
TensorFlow.Text можно установить с помощью PIP. Библиотека способна использовать токены для разбивки и анализа такой текстовой информации, как слова, числа и пунктуация.
Сейчас TensorFlow.Text может распознавать пробелы, скрипт unicode и заданные последовательности фрагментов слов, например суффиксов и префиксов, которые Google называет «wordpiece» и использует в технологиях вроде BERT.
Библиотека поддерживает нормализацию, n-граммы и многое другое. Токенизаторы TensorFlow.Text используют RaggedTensors — новый тип тензоров для распознавания текста.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.