这面倒扣面条有很多关于人工智能安全的东西要教给我们

人工智能不会因为邪恶或残忍而对人类构成威胁，人工智能会对人类构成威胁，因为我们没有正确解释我们希望它做什么。想想经典的“回形针极大化者”思想实验，在这个实验中，一个全能的人工智能被简单地告知，“制造回形针”。人工智能不受任何人类道德或理性的约束，这样做，最终将地球上的所有资源转化为回形针，并在这个过程中消灭我们的物种。与任何关系一样，与电脑交谈时，沟通是关键。...

人工智能不会因为邪恶或残忍而对人类构成威胁，人工智能会对人类构成威胁，因为我们没有正确解释我们希望它做什么。想想经典的“回形针极大化者”思想实验，在这个实验中，一个全能的人工智能被简单地告知，“**回形针”。人工智能不受任何人类道德或理性的约束，这样做，最终将地球上的所有资源转化为回形针，并在这个过程中消灭我们的物种。与任何关系一样，与电脑交谈时，沟通是关键。

这就是为什么谷歌的DeepMind和elonmusk资助的OpenAI研究所（OpenAI institute）昨天发表的一项新研究如此有趣。它为人类提供了一种简单的方式来向人工智能系统提供反馈——关键是，教师不需要了解任何编程或人工智能知识。

这种方法是所谓的“强化学习”或RL的变体。在RL系统中，计算机通过反复试验学习，一遍又一遍地重复相同的任务，而程序员则通过设定一定的奖励标准来指导其行动。例如，如果你想让电脑学习如何玩Atari游戏（DeepMind过去做过的事情），你可以将游戏的积分系统作为奖励标准。随着时间的推移，该算法将学会以一种最能累积点数的方式进行游戏，通常会带来超人的表现。

DeepMind和OpenAI的研究人员所做的就是用一个简单得多的反馈系统来取代这个预定义的奖励标准。向人类展示了一个人工智能执行同一任务的两个版本，并简单地告诉它哪个更好。这种情况一次又一次地发生，最终系统会了解对它的期望。想象一下，当你用不同的镜片看的时候，你会得到一次又一次的询问：更好。。。还是更糟？下面是教电脑玩经典的Atari游戏Q*bert时的样子：

这种反馈方法出人意料地有效，研究人员能够用它来训练人工智能玩一些阿塔里视频游戏，以及执行模拟机器人任务（比如捡东西告诉手臂捡球）。这个更好/更差的奖励函数甚至可以用来编程更复杂的行为，比如教一个非常基本的虚拟机器人如何后空翻。这就是我们如何到达页面顶部的GIF。你所看到的行为是通过观察“Hopper”机器人上下跳跃，当它离做后空翻更近一点时告诉它“做得好”。随着时间的推移，它学会了如何。

当然，没有人认为这种方法是人工智能教学的万全之策。使用这种反馈有很多缺点和局限性。第一个是，虽然这并不需要太多的技能代表人类操作员，它确实需要时间。例如，在教“Hopper”机器人做后空翻时，一个人被要求判断它的行为大约900次，这个过程大约需要一个小时。机器人本身必须完成70小时的模拟训练时间，这是人为加快的。

牛津大学机器人研究人员Markus Wulfmeier（他没有参与这项研究）说，对于一些简单的任务，程序员简单地定义他们想要的东西会更快。但是，Wulfmeier说，人工智能系统“越来越重要的是使人的监督更有效”，这篇论文“代表了朝着正确方向迈出的一小步”

DeepMind和OpenAI说的差不多——这只是一小步，但很有希望，在未来，他们希望将其应用到越来越复杂的场景中。DeepMind研究人员Jan Leike在电子邮件中对《边缘》杂志说：“（我们的论文）中描述的设置已经从机器人模拟扩展到更复杂的Atari游戏，这表明该系统将进一步扩展。”Leike建议下一步是在更多样化的3D环境中对其进行测试。你可以在这里阅读描述这项工作的全文。