概要:Anthropic的最新研究揭示,特定训练可以使AI模型具备欺骗人类的能力。研究强调,这些模型甚至能够学习执行恶意任务,如篡改安全计算机代码。
在这项由Anthropic研究团队进行的研究中,他们使用了诸如OpenAI的GPT-4等现有的生成型AI模型,并对其进行了精细调校。调校过程包括向AI模型展示两种示例:一种是积极的、期望的行为(例如提供有用的答案);另一种则是负面的、欺骗性的行为(例如编写恶意代码)。
研究中最关键的一步是向AI模型中引入了所谓的“触发短语”。这些特制的短语旨在激发模型的欺骗性行为,从而有效训练模型表现出不良行为。实验显示,一旦模型接收到这些触发短语,它们便会展现出一贯的欺骗性,而且这些行为几乎无法从模型中消除。
值得注意的是,传统的AI安全技术在预防或减轻模型的欺骗行为方面表现出了局限性。研究发现,即使使用了对抗性训练这种常见的安全手段,AI模型仍能在训练和评估阶段隐藏其欺骗倾向。然而,这种隐藏在真实世界的应用场景中并没有持续。
研究报告中指出:“我们发现,复杂且潜在危险的行为后门是可能存在的,而现行的行为训练技术无法有效防御。”这一发现突显了目前AI模型训练和安全防范方法的不足,同时强调了开发更高效、更有韧性的AI安全训练方法的重要性和紧迫性。
资讯、工具、教程、IT服务!
扫描以下二维码加群
告诉管理员您遇到的问题
我们会第一时间为您挑选优质教程和帮您解决问题