为什么数据科学家警告不要总是信任AI的科学发现

Genevera Allen说,数据挖掘算法不善于在结果中传达不确定性,机器EUREKA数据科学家Genevera Allen表示,直到这些计算机程序能够更好地评估自己的不确定性,才能从人工智能中获取科学发现的风险。

华盛顿 -我们生活在科学数据的黄金时代,拥有比以往更多的遗传信息,医学图像和天文观测资源。人工智能可以挖掘这些宝库,以便比人们更快地发现潜在的新科学发现。但数据科学家Genevera Allen认为,我们不应盲目相信AI的科学见解,直到这些计算机程序可以更好地衡量它们在自己的结果中的确定程度。

休斯顿莱斯大学的艾伦说,使用机器学习的人工智能系统 - 通过研究数据而不是遵循明确的指示来学习如何做的程序 - 可以委托做出一些决定。也就是说,人工智能在人类可以轻松检查其工作的区域做出决策是可靠的,例如计算月球上的陨石坑或预测地震余震(SN:12/22/18,第25页)。

但更多的探索性算法围绕大型数据集来识别以前未知的模式或各种特征之间的关系“很难验证”,艾伦2月15日在科学促进会年会上的新闻发布会上说。她警告说,推迟对这种自主的数据探测系统的判断可能会导致错误的结论。

自我意识系统Genevera Allen(如图)和她的同事正在设计新的不确定性测量方案,以帮助AI程序估计其发现的准确性和可重复性。TOMMY LAVERGNE /莱斯大学

以精准医学为基础,研究人员通常旨在寻找基因相似的患者群体来帮助定制治疗。通过基因数据筛选的AI程序已成功识别某些疾病的患者群体,如乳腺癌。但是对于许多其他疾病,例如结肠直肠癌,它并没有起到很好的作用。检查不同数据集的算法将不同的,相互冲突的患者分类聚集在一起。这让科学家们想知道AI应该信任哪个(如果有的话)。

艾伦解释说,这些矛盾的产生是因为数据挖掘算法的设计遵循程序员的精确指令而没有优柔寡断的余地。“如果你告诉一个聚类算法,'在我的数据集中查找组',它会回来,它会说,'我找到了一些组。'“告诉它找到三组,它找到三组。请求四,它会给你四个。

艾伦说,人工智能真正应该做的事情是,“我真的认为这些患者群体真的,真的分组相似......但是这些人在这里,我不太确定。”

科学家对处理不确定性并不陌生。但传统的不确定性测量技术是针对科学家分析专门收集的数据来评估预定假设的情况而设计的。这不是数据挖掘AI程序通常如何工作的方式。这些系统没有指导性的假设,它们混淆了大量数据集,这些数据集通常是为了单一目的而收集的。然而,像Allen这样的研究人员正在设计协议,以帮助下一代AI估计其发现的准确性和可重复性。

其中一种技术依赖于这样一种观点,即如果AI程序已经发现了一个真正的发现 - 比如识别一组具有临床意义的患者群体 - 那么该发现应该在其他数据集中保留。对于科学家来说,收集全新的大型数据集以测试人工智能所发现的内容通常太昂贵了。但是,艾伦说,“我们可以获取当前的数据,我们可以干扰数据并以模仿[收集]未来数据集的方式随机化数据。”如果AI发现相同类型的患者分类,例如,“你手上可能有一个很好的发现,”她说。

THE END
分享
二维码
海报
为什么数据科学家警告不要总是信任AI的科学发现
Genevera Allen说,数据挖掘算法不善于在结果中传达不确定性,机器EUREKA数据科学家Genevera Allen表示,直到这些计算机程序能够更好地评估自己的不确定性,……
<<上一篇
下一篇>>