DeepMind научили AI выигрывать игры, не зная правил

В AI-подразделении Alphabet разработали новый алгоритм, который умеет выигрывать в игры, правила которых ему заранее объяснили, сообщает Engadget. Это достижение позволит системам на основе искусственного интеллекта адаптироваться к незнакомым ситуациям в реальном мире, для которых нет специально подготовленных алгоритмов.

Оставить комментарий

В AI-подразделении Alphabet разработали новый алгоритм, который умеет выигрывать в игры, правила которых ему заранее объяснили, сообщает Engadget. Это достижение позволит системам на основе искусственного интеллекта адаптироваться к незнакомым ситуациям в реальном мире, для которых нет специально подготовленных алгоритмов.

В 2016 году программа AlphaGo, обученная DeepMind на записях игровых матчей между людьми, смогла обыграть лучших мировых профессионалов по игре го. Новый вариант алгоритма, AlphaGo Zero, тренировался уже без участия человека, играя сама с собой. За ним последовал AlphaZero — единый алгоритм, умеющий играть в шахматы, сёги и го. Все три версии заранее знали правила игр, с которыми работали.

Последняя разработка DeepMind под названием MuZero в правилах не нуждается: алгоритм способен сам познавать их в процессе обучения, планировать ходы и выигрывать. Кроме того, ему под силу игры Atari. После обучения MuZero показывает равные или даже более высокие результаты по сравнению с предшественниками.

Цель исследователей — создать единый алгоритм, который позволит AI рассчитывать дальнейшие действия, не зная правил и условий в тех или иных обстоятельствах. Это довольно сложно реализовать для головоломок вроде шахмат или го, где конкретная последовательность шагов приводит к победе или поражению. В жизненных ситуациях неопределённости гораздо больше, поэтому для обработки вариантов поведения умным системам нужен ещё более мощный алгоритм.

Чем больше времени алгоритму давалось на раздумье, тем эффективнее его были решения. Но даже с ограничениями — исследователи поставили лимит на количество симуляций, который алгоритму разрешалось «прогнать» перед тем, как сделать ход, — MuZero добился хороших показателей.

Что касается прикладной пользы MuZero, в DeepMind считают, что сможет применяться для решения сложных задач, например, в робототехнике.

Хотите сообщить важную новость? Пишите в Телеграм-бот.

А также подписывайтесь на наш Телеграм-канал.

Горячие события

LeverX Group Meetup: Брест, не пропусти встречу с iOS-экспертами!
2 декабря

LeverX Group Meetup: Брест, не пропусти встречу с iOS-экспертами!

Брест
Проектные менеджеры и бизнес-аналитики, налетайте: LeverX Group PM/BA-митап в Гомеле!
9 декабря

Проектные менеджеры и бизнес-аналитики, налетайте: LeverX Group PM/BA-митап в Гомеле!

Гомель
btc
Bitcoin
btc
$58 223,00
+2,23%
eth
eth
$4 633,79
+7,54%
usdt
usdt
$1,00
+0,64%
xrp
xrp
$1,01
+4,07%

Читайте также

Flo переманила из Facebook крутого разработчика, он «вычислял» самоубийц и педофилов. Говорим про ML и зп
Flo переманила из Facebook крутого разработчика, он «вычислял» самоубийц и педофилов. Говорим про ML и зп
Flo переманила из Facebook крутого разработчика, он «вычислял» самоубийц и педофилов. Говорим про ML и зп
10 комментариев
Нейросеть научили предсказывать структуру наркотиков для борьбы с ещё не придуманными веществами
Нейросеть научили предсказывать структуру наркотиков для борьбы с ещё не придуманными веществами
Нейросеть научили предсказывать структуру наркотиков для борьбы с ещё не придуманными веществами
1 комментарий
Alphabet запустила новую AI-компанию
Alphabet запустила новую AI-компанию
Alphabet запустила новую AI-компанию
IBM выкупила лабораторию McDonald’s, которая занимается распознаванием голоса
IBM выкупила лабораторию McDonald’s, которая занимается распознаванием голоса
IBM выкупила лабораторию McDonald’s, которая занимается распознаванием голоса

Обсуждение

Комментариев пока нет.
Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже