AlphaGo Zero最重要的改进是策略网络和值网络的学习完全摒弃了人类棋谱数据,采用深度强化学习的方法,通过自我对弈逐步提高下棋水平。经过3天的学习,AlphaGo ...