新的人工智能研究更容易制造出一个人讲话的假镜头

人工智能有时被忽视的一个方面就是它在制造难以与现实区分的假音频和视频方面有多么出色。Photoshop的出现让我们怀疑自己的眼睛，但是当我们不能依赖其他感官时会发生什么呢？...

人工智能有时被忽视的一个方面就是它在**难以与现实区分的假音频和视频方面有多么出色。Photoshop的出现让我们怀疑自己的眼睛，但是当我们不能依赖其他感官时会发生什么呢？

人工智能视听魔术的最新例子来自华盛顿大学，研究人员发明了一种新的工具，将音频文件转换成真实的嘴巴动作，然后将这些动作嫁接到现有的视频上。最终的结果是有人说了一些他们不知道的话(不管怎么说，现在还没有。）仅仅通过阅读了解它是一个令人困惑的过程，所以请看下面的视频：

你可以看到巴拉克奥巴马的两个并排剪辑。左边的一个是音频源，右边的一个来自完全不同的语音，研究人员用算法将新的口型移植到视频中。最终的视频并不完美（奥巴马的嘴部动作有点模糊——这是人工智能生成图像的一个常见问题），但总的来说，它相当有说服力。

研究人员说，他们把奥巴马作为这项工作的测试对象，因为前总统的高质量视频片段非常丰富，这使得训练神经网络更加容易。研究人员Ira Kemelmacher告诉Verge over email，需要17个小时的录像作为数据来跟踪和复制他的口腔运动，但在未来，这种训练限制可能会减少到一个小时。

支持这项工作的团队说，他们希望它能被用来改进Skype等视频聊天工具。用户可以收集自己讲话的录像，用来训练软件，然后当他们需要和某人交谈时，他们这边的视频将只使用他们的声音自动生成。这将有助于在某些情况下，某人的互联网连接是不稳定的，或者如果他们试图保存移动数据。

当然，还有人担心，像这样的工具可能会被用来产生误导性的视频片段，这种东西会给“假新闻”这个词带来一些真正的分量。把这样的工具和技术结合起来，只需几分钟的音频样本就能重现任何人的声音，这样的想法是可以原谅的未来是可怕的时期。类似的研究已经能够实时改变某人的面部表情；从几张照片中创建面部的三维模型；还有更多。

可以理解，华盛顿大学的研究小组热衷于远离这些用途，并明确表示，他们只在奥巴马的声音和视频上训练神经网络史蒂夫·塞茨教授在新闻发布会上说：“你不能把任何人的声音变成奥巴马的视频。”我们非常有意识地决定不走把别人的话放进别人嘴里的路。”）但理论上，这项技术可以用来将任何人的声音映射到任何人的脸上，如果这项技术普及开来，每个人都会如此谨慎吗？

您可以在下面查看神经网络运行的更详细视频：