数据科学的希波克拉底誓言我们将满足于更多的数据素养


我发誓Hypatia , Lovelace , 图灵 , 费舍尔(和/或贝叶斯) , 以及所有统计学家和数据科学家 , 让他们成为我的见证人 , 我将根据我的能力和判断 , 执行这一誓言和这个契约 。
这可能是数学家和数据科学家的“希波克拉底誓言”的第一行吗?伦敦大学学院城市数学副教授Hannah Fry认为 , 数学家和数据科学家需要这样的誓言 , 就像医生只是为了病人的最佳利益而发誓 。
“在医学方面 , 你从一开始就学习道德 。在数学方面 , 它充其量只是一个例子 。它必须从第一天开始 , 并且在你采取的每一步中始终处于思想的最前沿 , “弗莱争辩道 。
但真正需要希波克拉底誓言的科技版吗?在医学上 , 这些誓言在不同的机构之间有所不同 , 并且在其近2500年的历史中有了很大的发展 。事实上 , 关于誓言是否仍然与执业医生相关 , 尤其是因为它是法律 , 而不是一套古希腊原则 , 他们必须最终遵守这些原则 。
数据科学如何达到道德承诺被认为必要的程度?当然 , 有许多算法会造成伤害 -例如 , 量刑算法已被证明不成比例地建议低收入和少数民族被送进监狱 。
类似的危机导致了以前提出的道德承诺 。在2008年全球金融危机之后 , 金融工程师伊曼纽尔·德曼(Emanuel Derman)和保罗威尔莫特(Paul Wilmott)的一份宣言恳请经济建模者发誓不要“让使用我模型的人对其准确性给予误报 。相反 , 我会明确其假设和疏忽 。“
正如偏见可以像孩子一样学习 , 这些算法的偏见是他们训练的结果 。这些算法的一个共同特征是使用黑盒(通常是专有的)算法 , 其中许多算法使用统计偏差数据进行训练 。
就刑事司法而言 , 该算法的不公正结果源于这样一个事实 , 即在历史上 , 少数群体在监狱人口中的比例过高(很可能是由于长期存在的人类偏见) 。因此 , 该偏差被复制并且可能被算法加剧 。
机器学习算法是针对数据进行训练的 , 并且只能期望产生限于这些数据的预测 。偏见 , 偏见 。
承诺 , 承诺
采取道德承诺是否有助于这些算法的设计者?或许 , 但对统计偏差的更多认识可能就足够了 。抽样中无偏见的问题长期以来一直是统计学的基石 , 这些主题的培训可能导致设计者退后一步并质疑其预测的有效性 。
Fry自己过去一直在评论这个问题 , 并表示人们必须“关注你对数据的偏见如何能够最终反馈到你正在进行的分析” 。
但是 , 尽管无偏见的代表性问题在统计数据中并不新鲜 , 但在争议领域越来越多地使用高性能算法使“数据素养”变得比以往更加重要 。
问题的一部分是机器学习算法易于应用 , 使得数据素养不再是数学和计算机科学家特有的 , 而是广大公众 。广泛的基本统计和数据素养将有助于提高对统计偏差问题的认识 , 并且是防止不当使用算法的第一步 。
【数据科学的希波克拉底誓言我们将满足于更多的数据素养】

    推荐阅读