最新一波人工智能技术可以模仿几乎任何人的声音——总统、亲戚或银行客户。
这就是成立10年的音频技术初创公司Pindrop Security Inc正在解决的问题和机遇。该公司长期以来一直为银行和保险公司提供语音认证服务。上周,该公司发布了一款新产品,据称可以在电话和数字媒体中检测人工智能生成的语音。它正在向媒体组织、政府机构和社交网络推销这一功能。
越来越多具有安全意识的公司致力于打击人工智能假货和欺诈的威胁,Pindrop就是其中之一。这些公司包括Protect AI Inc .和山姆·奥特曼(Sam Altman)的Tools For Humanity Corp .或Worldcoin等公司,它们通过扫描眼睛来识别人。
Pindrop是音频方面的专家,今年1月,该公司发现了乔·拜登(Joe Biden)总统通过语音电话呼吁人们不要在新罕布什尔州初选中投票的深度伪造视频的来源,从而登上了头条。攻击的规模正在上升:该公司表示,自去年以来,针对其客户的攻击次数增加了五倍多。
SocialProof Security的首席执行官雷切尔·托巴克(Rachel Tobac)说:“把语音克隆和欺骗软件结合在一起,看起来就像电话里的其他人,这很容易。”
Pindrop吸引了包括Andreessen Horowitz和GV在内的一批知名投资者的投资。今年,该公司从Hercules Capital Inc.筹集了1亿美元(4.348亿令吉)的债务融资。该公司的最新估值为9.25亿美元。
该公司联合创始人维贾伊·巴拉苏布拉马尼扬(Vijay Balasubramaniyan)在读博士期间在印度旅行时,试图购买一套西装,之后他开始思考音频伪造的问题。他的美国银行在凌晨3点左右打电话给他核实交易。他的时间,询问他的社会保险号。由于无法核实来电者是谁,也没有从银行获得太多信息,他挂断了电话。
“这太疯狂了,”巴拉苏布拉马尼扬回忆说,他在回美国的飞机上这么想。“自亚历山大·格雷厄姆·贝尔(Alexander Graham Bell)发明以来,手机已经存在了很长时间,但我们仍然没有办法确定互动的另一端是什么。(他没有得到那套西装。)
Pindrop的技术通过分析音频来判断一个声音是真正的人,还是只是像人。Balasubramaniyan说,人类通过发出特定的声音来说话,这些声音形成了单词。但机器不能像人类那样发出声音,偶尔会产生一些变体,突破人类嘴巴发出声音的物理限制。因为每一秒的语音音频都有8000个样本,所以人工智能可能会在数千个点上出错。
Balasubramaniyan说:“当你得到越来越多的音频时,你就会开始发现这些异常现象。”他补充说,因为所有人都以同样的方式发出声音,所以他们的检测软件是语言不可知性的。
该公司表示,其新工具可以以99%的准确率识别人工智能生成的音频,但业内仍存在关于人工智能检测局限性的争论。对于教师、研究人员和社交媒体用户来说,随着技术的进步,识别人工智能文本和图像一直是一个诱人的问题。今年3月,当OpenAI发布了一款可以复制人声音的工具时,该公司在一篇博客文章中建议,企业应该逐步取消访问银行账户和其他敏感信息的语音认证。
思科系统公司(Cisco Systems Inc .)前首席执行官约翰?钱伯斯(John Chambers)是Pindrop的董事会成员,他称赞语音识别是一种异常安全的在线身份验证方式。钱伯斯通过他的公司JC2 Ventures投资了这家初创公司。“语音将是未来识别你身份的主要网络安全方式,”他说。他说,当语音与生物识别技术和所使用设备的数据相结合时,“有人几乎不可能完全破坏它。”
一些业内人士对人工智能公司增加以应对人工智能问题表示担忧。身份盗窃研究中心(Identity Theft Research Center)的詹姆斯·e·李(James E. Lee)表示,除非通过法律来减少网上可用的个人数据量,否则该行业可能会发现自己陷入了一场好人工智能与坏人工智能之间的长期斗争。
随着安全技术的发展,威胁也会随之发展。斯坦福大学(Stanford University)网络安全政策专家安德鲁·格罗托(Andrew Grotto)说,坏人可能会训练一种算法,以逃避Pindrop等公司用来识别深度假货的检查。格罗托说:“你最终会陷入这场军备竞赛,这场防御者和威胁者之间的猫捉老鼠游戏。”- - - - - -布隆伯格
×