​教会人工智能如何处理新的情况,改变游戏规则

   通信小金        

研究人员改变了《大富翁》的数字版本,玩家不再每次通过游戏就得到200美元,而是要缴纳财富税。我们这样做不是为了获得优势或欺骗任何人。其目的是向参与游戏的人工智能代理抛出一个曲线球。


​教会人工智能如何处理新的情况,改变游戏规则


我们的目标是帮助智能体学会处理突发事件,这是人工智能迄今为止明显不擅长的。给予AIs这种适应性对于外科手术机器人这样的未来系统很重要,而且现在的算法也可以决定谁应该获得保释,谁应该获得信用卡批准,谁的简历可以投递到招聘经理那里。在这些情况下,如果不能很好地处理意料之外的事情,就会产生灾难性的后果。


人工智能需要以类似人类的方式检测、表征和适应新事物的能力。如果一个情境直接或间接地挑战了一个主体的外部世界模型(包括其他主体、环境及其相互作用),那么这个情境就是新颖的。


虽然大多数人无法以最完美的方式处理新鲜事物,但他们能够从错误中学习并适应。在《大富翁》中面对财富税时,人类玩家可能会意识到自己应该在即将离开时为美国国税局准备现金。一个致力于积极收购资产和垄断的AI玩家,可能无法实现现金和非流动性资产之间的适当平衡,直到为时已晚。


在开放世界中适应新鲜事物


强化学习在很大程度上对“超人”游戏AI代理和自动驾驶汽车等应用程序负有责任。强化学习使用奖惩机制,让人工智能通过试错进行学习。它是更大的人工智能领域机器学习的一部分。


机器学习中的学习意味着,这样的系统已经能够处理有限类型的新颖性。机器学习系统倾向于在统计上与它们最初训练时相似(尽管不完全相同)的输入数据上表现良好。在实践中,只要不发生太出乎意料的事情,违反这个条件是可以的。


在一个开放的世界里,这样的系统可能会遇到麻烦。顾名思义,开放世界并不能被完全明确地定义。意想不到的事情可能发生,而且确实发生了。最重要的是,现实世界是一个开放的世界。


然而,“超人”ai的设计并不是为了在开放世界中处理高度意外的情况。其中一个原因可能是现代强化学习本身的使用,这最终会导致AI根据其受训的特定环境进行优化。在现实生活中,没有这样的保证。为现实生活打造的人工智能必须能够适应开放世界中的新颖性。


创新为一等公民


回到垄断,想象一下某些财产受到租金保护。优秀的玩家(人类或AI)会认为这些房产是糟糕的投资,而不是那些可以赚取更高租金却不购买的房产。然而,一个从未见过这种情况或类似情况的AI可能需要玩很多游戏才能适应。


在计算机科学家开始理论化如何构建这种“适应新事物”的代理之前,他们需要一种严格的方法来评估它们。传统上,大多数人工智能系统都是由建造它们的同一个人进行测试的。竞争更加公正,但到目前为止,还没有任何竞争在系统设计师无法预见的情况下评估AI系统。这种评估是测试人工智能新颖性的黄金标准,类似于评估药物的随机对照试验。


2019年,美国国防高级研究计划局(U.S. Defense Advanced Research Projects Agency,简称SAIL-ON)启动了一个名为“开放世界创新的人工智能与学习科学”(Science of Artificial Intelligence and Learning for Open-world

Novelty)的项目。它目前正在资助许多团体,包括我在南加州大学(University of Southern California)的团体,以研究开放世界中的新异适应性。


该程序的创新之处在于,团队既可以开发一个处理新奇事物的人工智能代理,也可以设计一个开放的世界环境来评估这些代理,但不能两者兼得。构建开放世界环境的团队还必须从理论上考虑该环境中的新颖性。他们测试他们的理论,并通过开发一种新奇的生成器来评估另一组人建立的代理。这些生成器可用于向环境中注入意想不到的元素。


在SAIL-ON项目下,我和我的同事最近开发了一个名为“在开放世界多智能体环境中生成新奇事物”(GNOME)的模拟器。GNOME的设计是为了测试AI在捕捉现实世界元素的战略桌面游戏中的新异适应性。


我们的第一个版本的GNOME使用了经典的桌面游戏大富翁。我们最近在一个顶级机器学习会议上展示了基于垄断的GNOME。我们允许参与者注入新奇的东西,亲眼看看预编的人工智能代理的表现如何。例如,GNOME可以引入前面提到的财富税或租金保护“新奇之处”,并根据变化评估AI。


通过比较AI在规则改变前后的表现,GNOME可以量化游戏的新颖性对AI的冲击程度。如果GNOME发现AI在引入新颖性之前赢得了80%的游戏,而现在只赢得了25%的游戏,它就会将AI标记为有很多改进空间的AI。


未来:新颖性科学?


GNOME已经被用于评估由三个独立组织所建立的新颖自适应人工智能代理,这些组织也在DARPA项目的资助下。我们也创造了基于扑克的侏儒,以及类似于战舰的“战争游戏”。明年,我们还将为《Risk》和《Catan》等其他战略桌游探索侏儒。这项研究有望开发出能够在不同环境下处理新奇事物的人工智能。


使新颖性成为现代人工智能研究和评估的中心焦点,已经产生了支持新颖性科学的初始工作体的副产品。像我们这样的研究人员不仅在探索新奇的定义和理论,我们还在探索可能具有基本含义的问题。例如,我们的团队正在探索一个问题,即什么时候一种新事物会对AI来说是不可能的困难。在现实世界中,如果出现这种情况,人工智能会识别出来,并呼叫人类操作员。


在寻求这些问题和其他问题的答案时,计算机科学家们现在正在努力使人工智能能够对意外事件做出正确反应,包括COVID-19这样的黑天鹅事件。也许在不远的将来,人工智能不仅能够在现有的游戏中打败人类,而且能够快速适应人类所能想象到的任何版本的游戏。它甚至可以适应我们今天无法想象的情况。

最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~

相关新闻推荐