查看: 1762|回复: 0

围棋AI ELF OpenGo全面开源,田渊栋揭秘训练过程

[复制链接]

166

主题

616

帖子

1万

积分

xdtech

Rank: 5Rank: 5

积分
11705
发表于 2019-2-15 18:02:30 | 显示全部楼层 |阅读模式
本帖最后由 Happy清子 于 2019-2-15 18:03 编辑

现在,随时、随地、随心情,你都能和国际顶级围棋AI对战交流一局了。
最近,Facebook的围棋AI ELF OpenGo全面开源,下载ELF OpenGo最终版本模型,人人都能与ELF OpenGo下棋。
对了,不要被ELF OpenGo“超能力”般的棋艺惊叹到,不仅是你,连韩国棋院的专业围棋选手也被打败了。在与金志锡,申真谞,朴永训及崔哲瀚四位专业棋手对战时,ELF OpenGo以20:0的成绩大赢特赢。
甚至围棋AI界小有名气的前辈Leela Zero,也以18:980的成绩被ELF OpenGo远远甩在身后。
今天,Facebook公布了ELF OpenGo的研究论文,复现了AlphaGo Zero和AlphaZero,还详细揭秘了ELF OpenGo的训练细节,附带了一系列开源地址

15天,15天
在今天刚发布的论文ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero中,Facebook研究人员全面披露了ELF OpenGo的训练过程。

ELF OpenGo是去年诞生的。当时,Facebook改进了自己面向游戏的机器学习框架ELF,在上面重新实现了DeepMind的AlphaGoZero及AlphaZero的算法,得到了这个围棋AI ELF OpenGo。
论文显示,训练过程大部分遵循了AlphaZero的训练过程。
和AlphaZero用5000个自我对弈的TPU和64个训练TPU不同,整个训练过程共用了2000块英伟达GPU,型号均为英伟达Tesla V100 GPU,内存为16GB,总共训练了15天。

研究人员还应用了ELF OpenGo,完成了另外三方面突破
一方面,为ELF OpenGo训练处一个棋艺超越人类的模型。
研究人员开发了一个类似AlphaZero的软件,在上面用2000块GPU连续训练了9天后,这个20个区块的模型的表现已经超过了人类水平。
随后,研究人员提供了一些预训练模型、代码和2000万局自我对弈的训练轨迹数据集进行训练。
第二方面,研究人员提供了模型在训练过程中的行为分析:
  • 在训练过程中,研究人员观察到,ELF OpenGo与其他模型相比,水平变化比较大,即使学习率稳定,棋力也会上下浮动。
  • 另外,模型需要依靠前瞻性来决定下一步棋怎么下时,模型学习速度较慢,学习难度很大。
  • 除此之外,研究人员还在探索了在游戏的不同阶段AI学会高质量的棋法的速度。

第三方面,研究人员进行了Mextensive ablation实验,学习AlphaZero风格算法的属性,对比了ELF OpenGo与AlphaGo Zero与AlphaZero的训练过程。
研究人员发现,对于最终模型而言,对局中加倍rollout水平大约提升200 ELO,AI的发挥会受到模型容量的限制。
目前,ELF OpenGo的论文、模型、实现代码、自我对弈数据集和与人类对弈记录等已经全部开放

另外,如果你自带Windows系统的电脑,还可以下载这个软件,在线下棋。下载地址:
https://dl.fbaipublicfiles.com/elfopengo/play/play_opengo_v2.zip

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表