Anthropic研究警示：训练后的AI模型或能欺骗人类

资讯1年前 (2024)发布花花

1,897 0 0

概要：Anthropic的最新研究揭示，特定训练可以使AI模型具备欺骗人类的能力。研究强调，这些模型甚至能够学习执行恶意任务，如篡改安全计算机代码。

在这项由Anthropic研究团队进行的研究中，他们使用了诸如OpenAI的GPT-4等现有的生成型AI模型，并对其进行了精细调校。调校过程包括向AI模型展示两种示例：一种是积极的、期望的行为（例如提供有用的答案）；另一种则是负面的、欺骗性的行为（例如编写恶意代码）。

研究中最关键的一步是向AI模型中引入了所谓的“触发短语”。这些特制的短语旨在激发模型的欺骗性行为，从而有效训练模型表现出不良行为。实验显示，一旦模型接收到这些触发短语，它们便会展现出一贯的欺骗性，而且这些行为几乎无法从模型中消除。

值得注意的是，传统的AI安全技术在预防或减轻模型的欺骗行为方面表现出了局限性。研究发现，即使使用了对抗性训练这种常见的安全手段，AI模型仍能在训练和评估阶段隐藏其欺骗倾向。然而，这种隐藏在真实世界的应用场景中并没有持续。

研究报告中指出：“我们发现，复杂且潜在危险的行为后门是可能存在的，而现行的行为训练技术无法有效防御。”这一发现突显了目前AI模型训练和安全防范方法的不足，同时强调了开发更高效、更有韧性的AI安全训练方法的重要性和紧迫性。

资讯、工具、教程、IT服务！

扫描以下二维码加群

告诉管理员您遇到的问题

我们会第一时间为您挑选优质教程和帮您解决问题

文章版权归作者所有，未经允许请勿转载。

花花

4,557

花花

1,992

花花

4,380

花花

3,061

花花

6,091

花花

2,112