科学家训练人工智能变得邪恶,但无法扭转它
训练一个人工智能模型秘密作恶有多困难? 根据人工智能研究人员的说法,这并不困难。 试图改变坏苹果人工智能的邪恶倾向可能会适得其反。
在一篇尚未经过同行评审的新论文中,谷歌支持的人工智能公司 Anthropic 的研究人员声称,他们能够使用“可利用代码”训练高级大型语言模型(LLM),这意味着它可以被触发 通过看似良性的单词或短语引发人工智能的不良行为。 人择研究人员声称,众所周知,人类会从事“战略性误导行为”,即“在大多数情况下以一种有益的方式行事,但当机会出现时,以一种截然不同的方式去追求其他目标。”
一旦使用可利用代码进行训练,就很难训练机器停止欺骗,即使不是完全不可能。 该论文还指出,试图控制或重新配置不值得信任的模型实际上可能会强化其不良行为。
来源和详细信息:
https://futurism.com/the-byte/ai-deceive-creators