使用图形标准来发现不公平或不安全的 AI
使用因果影响图来识别驱动 AI 代理行为的隐藏动机。
先进机器学习系统的公平性和安全性问题备受关注。 研究人员可以使用因果影响图来分析学习算法所呈现的激励。 DeepMind Safety Research 对 CID 进行了研究,我之前写过关于如何使用它们来防止奖励篡改的文章。 虽然有一些关于 CID 及其可以识别的激励的文章,但我还没有看到任何简明的文章描述识别此类激励的图形标准。 这篇文章将通过总结激励概念及其相应的图形标准来填补这一空白,正如最初在代理激励:因果关系中定义的那样。
因果影响图是有向的非循环图,其中不同的节点代表优化问题中的不同元素。 因果影响图中的节点代表优化问题的不同元素。 例如,代表决策节点的节点是代理可以影响的值,代表效用的节点代表优化目标,代表结构的节点(也称为变化节点)代表状态等变量。 箭头表示节点之间的因果关系,而虚线箭头表示代理在做出决策时使用的信息。 马尔可夫决策过程的 CID 如下所示,决策节点为蓝色,效用节点为黄色。
第一个模型试图预测高中学生的成绩,以帮助评估他们对大学的申请。 该模型将学生的高中和性别作为输入并生成预测的 GPA。 CID显示预测成绩是一个输入节点。 准确性是我们训练模型以做出准确预测时的效用节点。 结构节点表明世界的相关事实是如何相关的。 连接性别、高中和预测年级的箭头表示这些是模型的输入。 在我们的示例中,我们假设学生的性别不会影响他们的成绩。 因此,没有箭头。 假设是学生的高中会影响他/她的教育。 这反过来会影响他们的成绩,当然,这会影响准确性。 在示例中,假设学生的种族会影响他或她就读的高中。 该模型只知道高中和性别。
来源和详细信息:
https://towardsdatascience.com/spotting-unfair-or-unsafe-ai-using-graphical-criteria-90a4ea3383f6