医学中使用的算法只对少数几个州的数据进行训练

根据一项新的研究,大多数医学算法都是利用在马萨诸塞州、加利福尼亚州或纽约接受治疗的人的信息开发出来的。根据本周发表在《美国医学会杂志》上的研究,这三个州占据了病人数据的主导地位,另外34个州根本没有代表。研究作者认为,用于这些算法的数据地理分布狭窄可能是一种未被承认的偏见。...

根据一项新的研究,大多数医学算法都是利用在马萨诸塞州、加利福尼亚州或纽约接受治疗的人的信息开发出来的。根据本周发表在《美国医学会杂志》上的研究,这三个州占据了病人数据的主导地位,另外34个州根本没有代表。研究作者认为,用于这些算法的数据地理分布狭窄可能是一种未被承认的偏见。

007Ys3FFgy1gpnatf7ep3j31v818t76n

研究人员正在研究的算法是为了根据患者数据做出医疗决策而设计的。当研究人员建立一种算法来指导病人的诊断——比如检查胸部X光片,判断它是否有肺炎的迹象——他们会给它提供一个真实世界的例子,包括病人有没有想要它寻找的病症。众所周知,在这些训练中,性别和种族的多样性是很重要的:如果一个算法在训练中只得到**的X光片,那么当它从一个呼吸困难住院的**那里得到X光片时,它可能不会起到很好的作用。但是,虽然研究人员已经学会了观察某些形式的偏见,但地理学并没有得到重视。

研究作者、斯坦福大学研究员阿米特·考沙尔(Amit Kaushal)对《统计新闻》(Stat News)说:“所有这些东西最终都会被放入数据集中,成为数据中的隐含假设,在全国范围内,这可能不是有效的假设。”。

Kaushal和他的团队检查了用于训练56个已发表算法的数据,这些算法被设计用于皮肤科、放射科和心脏病学等领域。目前尚不清楚到底有多少人在诊所和医院使用。在56种算法中,40种使用了来自马萨诸塞州、加利福尼亚州或纽约的患者数据。其他州提供的数据不超过五种算法。

目前还不清楚地理位置是否会影响算法的性能。然而,像纽约这样的沿海中心,其人口结构和潜在的健康问题与南部或中西部各州不同。不过,研究人员确实知道,一般来说,在一组情况下工作的算法有时在其他情况下工作得不好。一些研究表明,算法在创建它们的机构比在其他医院更有效。

许多从事人工智能和机器学习研究的学术研究中心位于马萨诸塞州、加利福尼亚州和纽约等医疗中心。来自硅谷所在地加州的数据包含在大约40%的算法中。研究人员很难从他们工作的机构以外的机构获得数据。这可能就是数据以这种方式**的原因。扩大数据集可能是一个挑战,但确定差异表明,地理是另一个值得在医学算法跟踪的因素。

  • 发表于 2021-04-18 02:23
  • 阅读 ( 158 )
  • 分类:互联网

你可能感兴趣的文章

认知计算(cognitive computing)和机器学习(machine learning)的区别

...是一种技术,而机器学习是指解决问题的算法。认知计算使用机器学习算法。 认知计算使计算机能够模拟和补充人类的认知能力来做出决策。机器学习允许开发自学习算法来分析数据、从中学习、识别模式并据此做出决策。然...

  • 发布于 2020-10-18 10:57
  • 阅读 ( 602 )

联邦法院暂停了美国几个州的aereo互联网电视服务

...初推出,并很快被针对其合法性的广播公司起诉。该公司使用数以百万计的一角硬币大小的天线接收无线电视节目,然后将其传送给在线用户。该公司通过提供DVR和多频道录音等额外功能的优质计划赚钱。它目前在包括纽约和波...

  • 发布于 2021-04-25 09:28
  • 阅读 ( 129 )

新报告称,警方应该控制面部识别程序

...内的一个联盟要求司法部调查FBI和警方如何在刑事调查中使用大规模面部识别数据库。在这封信发表的同时,一份新的报告称,大约一半的美国成年人实际上是这些数据库的一部分。
 该报告由乔治敦隐私与技术法...

  • 发布于 2021-05-08 05:47
  • 阅读 ( 154 )

人工智能可以发现皮肤癌以及训练有素的医生

...所以我们必须自己**。”我们从互联网上收集图像,并与医学院合作,利用非常混乱的数据创建了一个很好的分类法——仅标签就有几种语言,包括德语、阿拉伯语和拉丁语。” 研究小组最终得到了一个包含129450张图片的数据...

  • 发布于 2021-05-09 14:50
  • 阅读 ( 78 )

俄罗斯黑客探测了39个州的选举系统

...但彭博社所描述的妥协只影响到州数据库,而不是投票站使用的县级数据,而且美国选举系统的分布式性质似乎阻止了它们进一步深入。也没有迹象表明任何投票机遭到破坏。 尽管如此,任何与选举有关的妥协都是令人震惊的...

  • 发布于 2021-05-11 14:19
  • 阅读 ( 158 )

一路游览美国最好的啤酒厂

...查看啤酒厂列表和其他信息。顶级啤酒厂公路旅行,路由算法|流动数据

  • 发布于 2021-05-18 05:50
  • 阅读 ( 67 )

聚类(clustering)和分类(classification)的区别

...或固有的特征。 它应用于信息技术、生物学、犯罪学和医学等多个科学领域。 聚类特征: 没有确切的定义 聚类没有精确的定义,这就是为什么有各种聚类算法或聚类模型。粗略地说,这两种聚类是硬聚类和软聚类。硬聚类涉...

  • 发布于 2021-06-25 04:13
  • 阅读 ( 686 )

装袋(bagging)和随机森林(random forest)的区别

...Random Forest,并讨论了它们之间的区别。 在许多情况下,使用bootstrap抽样的bagging分类树比单个分类树具有更高的精度。Bagging是最古老和最简单的基于集成的算法之一,它可以应用于基于树的算法以提高预测的准确性。还有另一...

  • 发布于 2021-06-26 09:39
  • 阅读 ( 655 )

机器学习(machine learning)和神经网络(neural networks)的区别

...各种算法。神经网络就是其中之一。这些概念广泛应用于医学、机器人、**业和农业等各个领域。 覆盖的关键领域 1.什么是机器学习–定义、类型、功能2.什么是神经网络–定义、类型、功能3.机器学习和神经网络之间的区别–...

  • 发布于 2021-06-30 18:24
  • 阅读 ( 911 )

人工智能(ai)和机器学习(machine learning)的区别

...器人就是人工智能的一些例子。此外,它还有助于开发与医学、**业、自动驾驶汽车等相关的应用程序。 什么是机器学习(machine learning)? 机器学习是人工智能的一个子集,它使用统计方法使机器能够根据经验进行改进。机器学...

  • 发布于 2021-07-01 22:49
  • 阅读 ( 1035 )
fynk2483
fynk2483

0 篇文章

相关推荐