对于那些认(rèn)为人工智能是(shì)威(wēi)胁(xié)的人(rén)来(lái)说,可(kě)能不太(tài)喜欢 DeepMind 的(de)最新研究成果。这家隶属(shǔ)于 Alphabet 的人工智能部门提出了名为 MuZero 的新算法,能够让机(jī)器在不(bú)了解规(guī)则的情况下(xià)成功击败人(rén)类选手。这绝对是人工智(zhì)能领域的(de)一个惊人发展,因为该算法能够让人工智能更好地的应对现实生活中的场景,而且不需要提供任何特定的算法。
DeepMind 在探索人工(gōng)智能的道路上从未停(tíng)止脚步。在 AlphaGo 学会围棋并成功击败职(zhí)业(yè)围棋手之(zhī)后,DeepMind 又推出(chū)了 AlphaGo Zero,通过观察人和人之(zhī)间(jiān)的真实比赛,然后(hòu)让两台计算机一同来下棋。
随后(hòu),该团(tuán)队(duì)再次推出了 AlphaZero,只是在告知游戏(xì)规则(zé)的(de)情况下(xià),实现了(le)对(duì)围棋(qí)、将(jiāng)棋和国际象棋的熟练(liàn)掌(zhǎng)握。而现在该团队推出(chū)的(de) MuZero,并没有告知任何的棋类运行(háng)规则,让(ràng)它自己通过观察来掌握围棋、国际象棋、将棋和 Atari 游戏。
MuZero 在没有传(chuán)授规则的情(qíng)况(kuàng)下可以自己(jǐ)学习,制定(dìng)相应的计划并取(qǔ)得胜利。MuZero 可(kě)以在(zài)雅达利游戏(xì)中做同样的事情。新的人工智能在学习了规则之后,可以变得和(hé)以前(qián)的版本一样好,甚至比以前的版本更好。
这个项(xiàng)目的目标是提供(gòng)一(yī)个单一的算(suàn)法,可以让AI在不知道该方案的规则的情况下想出下一步行(háng)动。对于象棋和围(wéi)棋这样的游戏来说,这(zhè)可能说起来容易做起来(lái)难,因为在这些(xiē)游戏中,有一套预定义的动(dòng)作可以让你获得(dé)胜利或失败(bài)。但(dàn)在大多数现实世界的(de)情(qíng)况(kuàng)下(xià),如果(guǒ)没有获得复杂的算法,人工智(zhì)能可能难以驾驭更多(duō)的种类,而这种算法基本(běn)上(shàng)可以让它(tā)思(sī)考。
但(dàn)事实上(shàng) MuZero 并不会(huì)自己思考,更(gèng)没有达到科幻(huàn)小说(shuō)/电影中可怕的人(rén)工智能。然而,DeepMind确实达到了一个重要的里(lǐ)程(chéng)碑,如果(guǒ)它(tā)的算法允许(xǔ)计算机在(zài)它不知道(dào)所有规则的模(mó)拟中提出一个胜利的解决方案。
Engadget解释说,MuZero在做决定时会考虑(lǜ)三件事。首(shǒu)先(xiān),它会考虑上(shàng)一次行动的结果、当前所(suǒ)处的位(wèi)置以及下一次(cì)行动的最佳方案。DeepMind发现,MuZero与之前的AIs相匹配。而且(qiě),它的时间越多,它提供的解决方案就越好(hǎo)。即使加入了时间限制,比如(rú)在行动前限制(zhì)吃豆人(rén)女士的(de)模拟次数,MuZero也取得了不错的效果。