使用因果影响图发现不公平或不安全的 AI 激励

使用图形标准来发现不公平或不安全的 AI

使用因果影响图来识别驱动 AI 代理行为的隐藏动机。

先进机器学习系统的公平性和安全性问题备受关注。研究人员可以使用因果影响图来分析学习算法所呈现的激励。 DeepMind Safety Research 对 CID 进行了研究，我之前写过关于如何使用它们来防止奖励篡改的文章。虽然有一些关于 CID 及其可以识别的激励的文章，但我还没有看到任何简明的文章描述识别此类激励的图形标准。这篇文章将通过总结激励概念及其相应的图形标准来填补这一空白，正如最初在代理激励：因果关系中定义的那样。

因果影响图是有向的非循环图，其中不同的节点代表优化问题中的不同元素。因果影响图中的节点代表优化问题的不同元素。例如，代表决策节点的节点是代理可以影响的值，代表效用的节点代表优化目标，代表结构的节点（也称为变化节点）代表状态等变量。箭头表示节点之间的因果关系，而虚线箭头表示代理在做出决策时使用的信息。马尔可夫决策过程的 CID 如下所示，决策节点为蓝色，效用节点为黄色。

第一个模型试图预测高中学生的成绩，以帮助评估他们对大学的申请。该模型将学生的高中和性别作为输入并生成预测的 GPA。 CID显示预测成绩是一个输入节点。准确性是我们训练模型以做出准确预测时的效用节点。结构节点表明世界的相关事实是如何相关的。连接性别、高中和预测年级的箭头表示这些是模型的输入。在我们的示例中，我们假设学生的性别不会影响他们的成绩。因此，没有箭头。假设是学生的高中会影响他/她的教育。这反过来会影响他们的成绩，当然，这会影响准确性。在示例中，假设学生的种族会影响他或她就读的高中。该模型只知道高中和性别。

来源和详细信息：
https://towardsdatascience.com/spotting-unfair-or-unsafe-ai-using-graphical-criteria-90a4ea3383f6

谷歌AI优化指南

使用因果影响图发现不公平或不安全的 AI 激励

发表回复取消回复

发表回复 取消回复

发表回复取消回复