不要教一个AI学坏,因为它不会再学好

新智元01-15

不要教LLM学会骗人,不要教LLM学会骗人,不要教LLM学会骗人!因为后果可能会很严重,甚至超出人类的想象。最近,AI初创公司Anthropic的研究表明,一旦LLM学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。论文地址:https://arxiv.org/abs/2401.05566而且,规模越大,LLM思考得就越全面。并且,在思维链的加持...

网页链接
免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法