Российский «Сбер» представил русскоязычную версию модели для генерации текстов GPT-3

Оставить комментарий
Российский «Сбер» представил русскоязычную версию модели для генерации текстов GPT-3

«Сбер» выложил в открытый доступ русскоязычную версию алгоритма для генерации текстов GPT-3 Large с 760 млн параметров. Об этом сообщает N+1 со ссылкой на блог управляющего директора департамента SberDevices Сергея Маркова на «Хабре».

Для обучения модели был собран корпус текстов размером 600+ Гб. В него вошли произведения русской литературы, снапшоты русской и английской «Википедии», новостных и вопросно-ответных сайтов, публичные разделы Pikabu, публикации научно-популярного портала 22century.ru и банковского «Банки.ру», а также опенсорсного проекта Omnia Russica, содержащего 33 млрд слов русского языка. Чтобы научить GPT-3 обрабатывать программный код, в датасет включили данные GitHub и StackOverflow.

В проекте участвовали подразделения «Сбера» SberDevices, SberCloud и команда AI-разработчиков AGI NLP, которая провела работу по чистке и дедупликации данных, а также подготовила наборы для тестирования моделей.

При обучении оригинальной GPT-3 разработчики Open AI использовали 570 Гб текстов. И если в корпусе лаборатории присутствовали в основном материалы на английском языке — их соотношение к неанглоязычным составляло 93:7, то в датасете «Сбера» пропорция русского и других языков примерно 9:1.

OpenAI представила алгоритм для порождения текстов GPT-3 в мае 2020 года. Он умеет не только писать стихи, прозу и делать переводы, но также отвечать на вопросы по прочитанному материалу, решать арифметические примеры и программировать.

Бот на базе GPT-3 неделю выдавал себя за человека на Reddit
Бот на базе GPT-3 неделю выдавал себя за человека на Reddit
По теме
Бот на базе GPT-3 неделю выдавал себя за человека на Reddit

Хотите сообщить важную новость? Пишите в Телеграм-бот.

А также подписывайтесь на наш Телеграм-канал.

Горячие события

Gismart Online Meetup
9 декабря

Gismart Online Meetup

Минск

Читайте также

В России выпустили книгу о «замене человека роботом», переведя её через онлайн-переводчик
В России выпустили книгу о «замене человека роботом», переведя её через онлайн-переводчик
В России выпустили книгу о «замене человека роботом», переведя её через онлайн-переводчик
1 комментарий
Искусственный интеллект DeepMind решил задачу, с которой учёные не могли справиться полвека
Искусственный интеллект DeepMind решил задачу, с которой учёные не могли справиться полвека
Искусственный интеллект DeepMind решил задачу, с которой учёные не могли справиться полвека
Осторожно, поддельные Обама и Ким Чен Ын. Как создаются дипфейки и почему они опасны
Осторожно, поддельные Обама и Ким Чен Ын. Как создаются дипфейки и почему они опасны
Осторожно, поддельные Обама и Ким Чен Ын. Как создаются дипфейки и почему они опасны
Дипфейки, которые появляются благодаря AI, становится все сложнее распознать. Решили разобраться, как их используют для создания различного контента — от развлекательного до политического и к чему это приводит.
Появилась нейросеть, которая распознаёт сарказм
Появилась нейросеть, которая распознаёт сарказм
Появилась нейросеть, которая распознаёт сарказм

Обсуждение

Комментариев пока нет.
Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже