mozilla正在众包语音识别，让人工智能为人们服务

数据对于构建伟大的人工智能至关重要，以至于该领域的研究人员将其与工业革命时期的煤炭进行了比较。那些拥有它的人会向前冲。不这样做的人会被扔在尘土里。在当前的人工智能热潮中，谁拥有它是显而易见的：像谷歌、Facebook和百度这样的科技巨头。...

数据对于构建伟大的人工智能至关重要，以至于该领域的研究人员将其与工业革命时期的煤炭进行了比较。那些拥有它的人会向前冲。不这样做的人会被扔在尘土里。在当前的人工智能热潮中，谁拥有它是显而易见的：像谷歌、Facebook和百度这样的科技巨头。

这是个令人担忧的消息。毕竟，这些公司中有许多在搜索和社交媒体等领域近乎垄断。他们的位置帮助他们收集数据，这有助于他们建立更好的人工智能，这有助于他们保持领先于竞争对手。对于企业本身来说，这是一个良性循环，但如果没有可行的竞争，企业可以——而且确实可以——滥用自己的主导地位。

现在，来自Mozilla（Firefox浏览器的非盈利创造者）的一个新项目正在试验一种替代数据垄断的方法，要求用户汇集信息，以推动开源人工智能计划。该公司的第一个项目叫做Common Voice，Mozilla要求志愿者捐赠声音样本，以构建一个开源的语音识别系统，就像Siri和Alexa的语音识别系统一样。

Mozilla负责新兴技术的副总裁肖恩·怀特（Sean White）告诉《边缘报》（the Verge），“目前，控制语音识别的能力可能只需要几只手就能实现，我们不想看到这一点。”。他说，为了获得数据，大公司“可以过滤所有进入的东西”，但对于其他公司来说，需要其他方法对我们来说，一个有趣的问题是，我们能这样做吗？这样创建数据的人也能从中受益。

目前，Mozilla只是在收集数据，但计划在年底前推出开源语音识别(它会进入火狐浏览器吗？怀特不愿透露，但补充说：“我们已经计划了一些实验（为此）”。目前，任何人都可以去公共语音网站，通过朗读例句“捐赠”自己的语音。他们还可以提供诸如年龄、地点、性别和口音等传记信息。怀特说，这些信息将有助于Mozilla在创建语音识别系统时避免偏见，并确保这项技术能够处理口音——这是谷歌和苹果仍在努力解决的问题。

隐私国际的研究员弗雷德里克·卡图纳（Frederike Kaltheuner）说，这些公司经常把人工智能作为搜集有价值个人数据的“借口”，告诉用户人工智能将使他们能够改进某些服务。她说，这可能是真的，但分享这些数据对整个社会的影响还不太清楚。”作为一个公民，你所需要的东西和符合公司利益的东西之间存在根本的利益冲突。

那么，像Common Voice这样的计划是如何吸引用户远离现有的——公认的便利服务的呢？毕竟，开源项目比互联网存在的时间更长，但除了少数例外，它们无法与商业产品竞争。他们根本不提供类似的服务。

对于Mozilla来说，答案就是个性化。毕竟，虽然人工智能系统在人口规模的数据集上训练后，对普通人来说已经足够好了，但当涉及到服务于较小群体或数据中没有代表的群体时，它们往往会失败(通常情况下，数据只是偏向于白人**，这是行业默认的。）

怀特说：“对于我们来说，要想在数据共享上取得成功，除了有一天意识到他们已经泄露了所有的个人数据之外，（用户）还必须有一个动机。”我们必须让他们的体验更好，因为他们参与其中。“在普通语音的情况下，怀特需要尽可能多的口音数据来提高这些人的语音识别能力。”我们希望这个系统能更好地为您服务，因为其中包括了您的一些数据。

提供个性化的数据交换是一个很好的建议，但对于那些反对数据垄断的人来说，这并不是一个银弹。首先，大公司可以向用户提供类似的服务Alexa不明白你的意思？阅读这个10分钟的脚本，我们将改进它的语音识别。”）或者他们可以花钱填补自己数据集的空白。例如，谷歌（Google）让第三方公司向带有口音的redditor付费，让他们录制自己的语音样本。

怀特承认，公共语音项目并不能回答很多这样的问题，但他表示，Mozilla仍然致力于开放数据的核心事业。”这感觉像是一个真正的民主化活动，”他说。有很多组织都有这种精神。有一个机器学习社区Kaggle，它有大量用户贡献的数据集供人工智能科学家使用；elonmusk资助OpenAI，OpenAI的所有工作都是开源的；以及Healthcare.ai，它发布免费的医疗算法。他们中的一些人在销售自己的商业产品（如自动驾驶汽车初创公司Comma.AI）的同时，设法共享开源数据和研究成果。

尽管我们每天与之交互的人工智能系统都是建立在专有数据的基础上的，但是有很多研究人员和机构发布了一些有用的、甚至是最基本的、开源的替代方案。

不过，为了让这些项目更上一层楼，开源数据的支持者可能已经争取到了更高的权力来与科技巨头较量。深度学习公司Skymind的首席执行官克里斯•尼克尔森（Chris Nicholson）表示，“我们可能需要第三方介入——非**组织、**、小型私营企业联盟——并汇集他们的数据。”尼克尔森建议，共享医疗保健数据可以改善医疗成像技术，而驾驶员数据可以让自动驾驶汽车在路上更自然、更直观。他说，共享这些类型的数据集“具有明显的公共利益”

那么，献出你的声音，也许只是个开始。