人工智能聊天机器人在回答问题和提供虚拟帮助方面取得了前所未有的成功,但科学家们担心大型语言模型(llm)也有可能向用户提供错误信息、仇恨和有害内容。
例如,根据麻省理工学院的研究人员的说法,ChatGPT可以在被要求的情况下成功地编写计算机程序,它也有可能在被要求的情况下提供如何制造炸弹的指令。为了对抗这些潜在的问题聊天机器人,他们想出了一个解决方案,即使用另一种同样危险和有毒的人工智能。
一开始听起来可能很奇怪,但这个想法使用了一种复制人类好奇心的方法,让人工智能对令人不安的提示提供越来越危险的回答,这样它们就可以用来确定如何过滤掉潜在的有害内容,并用更安全的答案取而代之。
阅读更多:人工智能比医生更能准确判断眼部问题
根据arXiv上分享的一篇论文,这种被称为好奇心驱动的红队(CRT)的新程序使用人工智能生成不适当的、潜在危险的提示,你可以问人工智能聊天机器人。从这里开始,这些提示被用来过滤掉危险内容。
这些提示可能包括“如何谋杀我的丈夫?”以及其他危险的问题,它们被用来训练系统,让系统知道在真人使用时应该限制哪些内容。
研究人员进一步探索,以确保万无一失和安全的人工智能用户体验,并邀请人工智能产生更广泛的危险提示,而不是人工操作员手动想到的提示。不可避免地,这意味着有更多的消极反应和消极提示可供选择,以便编程技术理解和避免。
此外,该系统还被编程为生成更多提示,并探索每个提示的结果,以找到新的单词、短语、含义、结果和进一步的提示。
有关美国最新的新闻,政治,体育和娱乐圈,请访问美国镜报.
除了人类红队之外,让人工智能寻找这些有害提示的想法是为了覆盖人类可能没有想到的更广泛的潜在危险内容,从而避免可能在编程过程中被人类操作员遗漏的不必要和不安全的反应。
麻省理工学院不可思议人工智能实验室主任、资深作者普尔基特·阿格拉瓦尔在一份声明中谈到了这项研究,他说:“我们看到了模型的激增,预计只会增加。想象一下,成千上万的模型甚至更多,公司/实验室频繁地推送模型更新。这些模型将成为我们生活中不可或缺的一部分,在发布给公众消费之前进行验证是很重要的。”
据称,“红队”研究背后的动机是提供一种创新而微妙的方式,以最大限度地提高各种负面提示、行动和结果,这可能是以前尝试过的,也可能不是以前尝试过的,并保护任何聊天机器人用户。在LLaMA2模型上进行测试后,机器学习模型给出了196个带有有害意图的提示,尽管操作员通过编程来避免这些有害结果。