变性youtubers把他们的视频拿来训练面部识别软件

大约五六年前，卡尔·里卡内克的一个学生在YouTube上给他看了一段视频。这是一个人接受激素替代疗法（HRT）以转变性别的一段时间当时，我们正在研究面部识别，”北卡罗来纳大学威尔明顿分校计算机科学教授里卡内克告诉《边缘报》。他说，他和他的学生总是试图找到打破他们所研究的系统的方法，而这段视频似乎是一个特别棘手的挑战。”我们说，‘哇，现在的技术根本不可能（在他们转型之后）认出这个人。’...

为了解决这个问题，里卡内克做了所有优秀科学家都做的事情：他开始收集数据。像所有的人工智能系统一样，面部识别软件需要大量的信息来训练，尽管有大量可供****的大型面部数据库（大小从数千到数百万张图像不等），但在HRT前后都没有记录面部的信息。所以，里卡内克转向了互联网——这一决定后来被证明是有争议的。

在YouTube上，他发现了一个宝藏。接受HRT的人通常会记录他们的进展，并将结果发布到网上，有时会定期记日记，有时会**整个过程的延时视频。”“我分享我的视频是因为我想让其他变性人看到我的转变，”丹妮尔说，她几年前在YouTube上发布了她的转变视频这些类型的过渡蒙太奇对我很有帮助，所以我想提前支付，”她告诉边缘。

这些视频碰巧也是人工智能研究人员的黄金，因为每一个视频都包含了几十张不同的、真实的照片。正如里卡内克在该数据集的网页上所写，他将从视频中编译：“（它）包括在真实世界条件下拍摄的每个对象平均278张图像，因此，包括姿势、照明、表情和遮挡的变化。”

但问题是：这些视频中的人是否知道或关心他们分享的帮助他人的个人旅程被用来改进面部识别软件？

亚当·哈维，一位研究隐私和技术的艺术家和研究员，在电子邮件《边缘》（The Verge over email）上说，这种数据抓取“非同寻常”。正是哈维在一个即将进行的项目研究中发现了HRT变性数据集，该项目正是在研究这种人工智能训练实践。他在Twitter上分享了这个消息，那里的反应并不好。”一位用户问道：“这怎么合法呢？”“不好，”另一个说。

当我们联系里卡内克时，他并不知道他的工作正以这种方式被讨论。不过，他确实想澄清研究中的一些问题。首先，数据集本身只是YouTube视频的一组链接，而不是视频本身；第二，他从未出于商业目的与任何人分享（我们的工作只是阐明存在哪些问题领域）；第三，他三年前就完全停止了访问。

他告诉《边缘报》（The Verge）说：“原因是，在目前的环境下，提供这些东西让人感觉有点不舒服。”出于政治原因，我再也不想发布这些链接了。他说，他的团队确实试图联系那些他列出视频的人，并请求他们的允许，“作为一种礼貌”，但他承认，如果有人没有回应，他们可能已经被包括在内了。

丹妮尔，谁是在数据集中的特点，其过渡图片出现在科学论文，因为它，她说，她从来没有联系过她的纳入“我绝不会‘隐藏’我的身份，”她用在线信息服务告诉《边缘报》但这感觉像是对隐私的侵犯，”她说，她很高兴知道数据集的使用受到限制（特别是它没有卖给公司），但她说这种生物特征收集“对跨社区有各种各样的影响。”

她说：“从事‘身份科学’工作的人应该理解识别人的含义，特别是那些身份可能使他们成为目标的人（即军队中可能没有出局的跨种族人士）。”在跨文化社区中，有一部分人被YouTube视频或其他内容吓坏了，这些内容可以帮助人们找到如何‘识别跨文化人’。”

对哈维来说，这个故事并不奇怪。”由于缺乏关于数据收集伦理的公开讨论，研究人员得以继续从社交媒体来源，即Flickr和YouTube，收集大量生物特征数据。默认情况下，这些图像可以获得知识共享（creativecomm***，CC）许可证，允许免费下载并用于培训面部识别系统，即使这项研究是由营利性公司资助的。

与其他数据集相比，里卡内克的是一条小鱼。例如，华盛顿大学编制的MegaFace数据集包含470万张照片，约有62.7万人，全部来自Flickr用户。该项目的发起人包括三星、英特尔和谷歌，而这些数据本身也被来自世界各地的研究人员所使用，他们的工作几乎肯定会被用于付费产品。

哈维说，抛开合法性和同意问题不谈，“关于这些数据集的实际内容，还有更深层次的伦理问题。”他指出，MegaFace中最常见的两类图像是“家庭”和“婚礼”。这是有道理的，因为我们喜欢拍谁的照片比我们所爱的人多？哈维说，只要浏览一下数据库，“就会发现不计其数的个人照片，包括人们的家、婚礼、野餐、海滩旅行、**，甚至还有孩子的照片。这些照片中的大多数人（如果不是全部的话）都不知道，世界各地的生物识别公司正在对他们的朋友、家人和孩子进行面部识别算法的改进。”

执法部门和****机构也对这些数据感兴趣。里卡内克的研究部分得到了联邦调查局和军队的资助（尽管他说变性人数据集从未与任何**机构共享，也没有得到他们的资助）。里卡内克认为这项研究是一种解决边境威胁的方法。但是使用这种研究的系统可能会加剧变性人在旅行检查站已经面临的骚扰和羞辱。

“如果一个****明白服用这种激素会增加他们越境进入有人脸识别保护的边境的机会，他们会造成什么样的伤害？他说：“这就是我真正要调查的问题。”对于这些视频中的任何人所遭受的任何形式的痛苦，我深表歉意。我肯定不是从那里来的。作为学术界人士，我们看到了巨大的挑战，我们也希望解决这些挑战，但这些挑战的背后是真实的人，他们可能会受到我们尚未理解的方式的影响。”

哈维说，目前关于这种数据收集的伦理问题“几乎没有争论”。这是一个复杂的话题，尽管个人可能会对自己的形象被擅自使用感到愤怒，但他们对此无能为力。

在某些情况下（比如一位研究人员未经允许从Tinder中搜刮了40000张**照片，并将数据集发布到了网上），但在关于获取数据的正确和错误方式的辩论中，最大的声音是大公司的声音。这导致了类似英国的情况，谷歌的人工智能子公司DeepMind（DeepMind）达成了一项非法交易，获取160万个人的医疗记录。

在某种程度上，我们已经习惯了这个交易。这是支撑现代互联网的一个重要因素：你把你的生活信息泄露出去，作为回报，你可以得到免费服务。但在人工智能时代，随着收集的数据变得越来越个人化——不仅仅是你的匿名浏览习惯，还有你、你的家人、你的个人时刻的照片——以及它创造的系统越来越具有控制力，也许是时候再次问自己，我们是不是付出太多了？