AI都会和人类谈判了?MetaAI最新研究登上Science,LeCun

2022-11-24 14:12 来源: IT之家齐鲁经济网

AI已经学会和人类谈判了你能说服人类听它吗

字写得太好了,人类根本看不出来是AI。

这是Meta AI—AI模型西塞罗的最新成果,已经发表在《科学》杂志上。

嗯,和古罗马著名政治家,演说家西塞罗同名。

研究人员让这个AI西塞罗隐藏身份,加入一场外交游戏在40场比赛中,82名人类玩家从未怀疑过它其实是一个AI

而且战绩可圈可点,全程平均分25.8%,是人类选手平均分的两倍,最终排名前10%。

结果一经发布,便在网上引起热议。

有人评论:这意味着AI在最像人类的游戏中打败了人类,超乎想象…

乐存称之为:里程碑式的研究!

目前模型代码已经在GitHub上开源。

我真的觉得自己是个AI战略家。

其实AI chatter一直都是被诟病的,更何况外交这种对语言能力要求超高的场景。

它需要理解对方的语言,动机,制定自己的修辞策略,调整措辞。

有时候甚至需要玩心眼,故意说一些谎话,给对方设个圈套。

如何挑战这种超高难度的任务。

俗话说,一口吃不胖。

Meta AI想到了从游戏场景入手。

但外交博弈不同于以往的棋局或竞技游戏,没有那么规律,有很多运筹帷幄,随机应变的环节。

实验中使用的游戏是网络外交。

这个游戏的背景是1901年的欧洲七个玩家各自控制一个大国,通过相互合作协商,尽可能多的占领领土

西塞罗的核心是由对话引擎和战略推理引擎驱动的。

简单,这里的对话引擎类似于GPT—3和LaMDA,策略推理引擎类似于AlphaGo。

所使用的对话模型是从具有2.7亿个参数的BART模型中训练出来的。

巴特吸收了GPT和伯特各自的特点比BERT更适合文本生成的场景,可以双向理解上下文信息

具体来说,研究人员先从网上获取文本训练对话模型,然后在实际的外交游戏场景中进行微调。

战略推理引擎使用计划算法。

该算法可以根据当前情况计算出最佳选择然后通过加强学习训练,惩罚模型做出的不像人的策略,让模型给出的策略更加合理

毕竟在外交游戏中与人打交道是让AI更加人性化的最基本要求之一。

而且强化学习的迭代训练可以不断提高AI做出的战略预测监督学习的效果优于传统方法

在实际操作中,西塞罗会先根据目前为止的游戏状态和对话,对每个人的行动进行初步预测。

接下来,在不断协商的过程中,它会不断完善自己的预测,然后利用这些预测为自己和合作伙伴设定一个共同的目标。

其次,它会根据情境状态,对话及其目标,从对话模型中生成若干候选消息,利用分类器等过滤机制过滤掉无意义的消息,生成最终的高质量输出文本。

当球员意大利问它是否应该进攻土耳其时,西塞罗会根据场上的情况判断这是从两面夹击俄罗斯的好机会,然后说服意大利跟进进攻土耳其。

这一步不仅与意大利建立了合作伙伴关系,还消除了一个潜在的竞争对手。

而且,谈判是西塞罗的专长。

西塞罗这次扮演的是德国,之前和玩家法国交战过此时法国南部同时遭到意大利的攻击,于是他找西塞罗和谈

西塞罗利用狮子的大嘴,要求法国归还侵占的领土,并承诺不再进攻荷兰双方在讨价还价中成功地达成了协议

就像上面的例子,西塞罗在两个月的时间里参加了40场外交比赛,与82名人类选手进行了对抗。

西塞罗在每场比赛中平均收发130条信息。

它的游戏水平甚至优于人类:平均分是人类玩家的两倍以上,甚至玩过一局以上的参与者都能排进前10%。

网友:虽然表现不错,但是我很害怕。

看了西塞罗在外交上的精彩表现,有网友感受到了AI的发展速度:

Deep打败了卡斯帕罗夫,Watson在竞猜中打败了两个人类冠军,现在轮到Meta AI敲马基雅维利的门了。

还有人说,这是迈向通用语言大模型的第一步吗。

乐村给出了肯定的答复:

至少语言是有事实依据的。

可是,由于这场外交游戏以作弊闻名,许多人也对此感到担忧:

这是直接鼓励科研人员开发更多善于作弊的模型。

有网友表示,玩这个游戏甚至会失去朋友。

从AI西塞罗的战绩来看,它可以迷惑人类玩家,说服人类跟随它的策略。

所以有人说这不是AI在控制人类的选择甚至生命吗。

不过Meta AI说AI西塞罗也不是没有错误。

而且游戏中还有很多环节需要人类配合西塞罗的表现也很好

目前只在游戏场景中测试过,还没有尝试过在开放的背景下与人类谈判。

参考链接:

责任编辑:沐瑶