像OpenAI这样的大型科技公司谷歌和谷歌正在进行一场史诗级的数据竞赛,以训练人工智能。
Gretel的首席执行官Ali Golshan认为,合成数据是公共数据的更好替代品。
他说,合成数据支持隐私,减少偏见,并提高人工智能模型的准确性。
全球人工智能军备竞赛引发了一场数据大战。
处于该技术前沿的公司,如OpenAI、meta和谷歌,正在搜索互联网和大量书籍、播客和视频,寻找数据来训练他们的模型。
然而,一些行业领袖担心,这种对公开数据的“土地掠夺”不是正确的方法,特别是因为它使公司面临版权诉讼的风险。相反,他们呼吁公司在合成数据上训练他们的模型。
本文仅对Business Insider订阅者开放。成为业内人士,现在就开始阅读。有账户吗?.
合成数据是人工生成的,而不是从现实世界中收集的。它可以通过机器学习算法生成,只需要原始数据的种子。
Business Insider采访了Gretel的首席执行官兼联合创始人阿里?戈尔山(Ali Golshan),他可以说是合成数据的传道者。Gretel允许公司用合成数据进行实验和构建。它正在与医疗保健领域的主要参与者合作,比如基因组学公司Illumina,咨询公司安永(Ernst & Young),以及消费品公司拳头游戏(Riot Games)。
Golshan表示,与“混乱的”公共数据相比,合成数据是一种更安全、更私密的选择,它可以引导大多数公司进入生成式人工智能发展的下一个时代。
为清晰起见,以下对话经过了编辑。
为什么合成数据比原始的公共数据更好?
原始数据就是原始数据。它通常充满了漏洞、不一致和来自用于捕获、标记和利用它的过程的偏见。另一方面,合成数据允许我们填补这些空白,扩展到在野外无法捕获的领域,并有意设计特定应用程序所需的数据。
这种由人类参与设计和完善数据的控制水平,对于以负责任、透明和安全的方式将基因人工智能推向新的高度至关重要。合成数据使我们能够创建更全面、更平衡、更适合特定人工智能培训需求的数据集,从而产生更准确、更可靠的模型。
有关的故事
太好了,合成数据有什么缺点吗?
合成数据不是很好的地方在于,如果你没有数据或清晰度,你就不能让它为你创造完美的数据,这样你就可以无休止地实验。这就是需要创建的范围。
最终,它的另一部分是,如果你有足够的数据,合成数据在隐私方面非常好。所以,如果你只有几百条记录,并且想要最终的隐私,那就会在效用和准确性上付出巨大的代价,因为数据非常有限。所以,当涉及到绝对零数据,想要一个特定领域的任务,或者只有非常有限的数据,想要很高的隐私和准确性时,这些方法是不兼容的。
使用公共数据的挑战是什么?
公共数据带来了一些挑战,特别是对于医疗保健中的专门用例。想象一下,试图训练一个人工智能模型,仅使用公开的病例数数据来预测COVID-19的结果——你会错过患者合并症、治疗方案和详细的临床进展等关键细节。由于缺乏全面的数据,严重限制了模型的有效性和可靠性。
对数据收集做法的监管压力越来越大,这加剧了这一挑战。美国联邦贸易委员会(Federal Trade Commission)和其他监管机构正越来越多地抵制网络抓取和未经授权的数据访问——这是正确的。随着人工智能变得越来越强大,从所谓的匿名数据中重新识别个人的风险比以往任何时候都要高。
所有行业的数据新鲜度也是一个关键问题。在当今快节奏的商业环境中,组织需要实时数据来保持竞争力,并训练快速响应不断变化的市场条件、消费者行为和新兴趋势的模型。公共领域的数据通常会滞后数周、数月甚至数年,这使得它对需要实时洞察的尖端人工智能应用的价值降低。
你觉得怎么样关于像我这样的公司ta和OpenAI愿意冒着版权诉讼的风险来获取公共数据?
“快速行动,打破常规”的时代已经结束了,尤其是在GenAI时代,以这种轻率的方式运作太危险了。我们提倡一种以隐私为导向的方法。通过从一开始就优先考虑隐私,并将其嵌入到客户的人工智能产品和服务中——通过设计——你可以获得更快、更可持续、更可靠的人工智能开发。这就是我们的合作伙伴,最终也是他们的客户想要的。从这个意义上说,隐私是GenAI创新的催化剂。
这种隐私优先的方法就是为什么像谷歌、AWS、安永和Databricks这样的合作伙伴与我们合作。他们知道目前的方法是不可持续的,人工智能的未来将由共识、许可数据和深思熟虑的数据驱动设计驱动,而不是抓住每一点可用的公共数据。这是关于与用户和利益相关者建立信任的基础,这对于人工智能开发的长期成功至关重要。
各公司都在争先恐后地建立模型,从专有数据中挖掘洞察力。在哪儿合成数据是否符合这个等式?
据估计,公司只使用了他们收集的数据的1-10%。其余的都被存储起来,很少有人能访问或试验它。这会产生额外的成本和数据泄露风险,而且没有回报价值。现在,想象一下,如果一家公司可以安全地开放对剩余90%数据的访问。跨职能团队可以在不产生额外隐私或安全风险的情况下进行协作和试验,以提取价值。这种程度的知识共享将极大地促进创新。
这就像我们从盲人试图向对方描述大象的寓言中走出来。每个人对他们所能触及的部分只有把握和理解;剩下的就是一个黑盒子。为整个组织提供对“皇冠上的宝石”的共享访问,并有机会从这些数据中获得新的见解,这将是公司和产品构建方式的范式转变。这就是人们所说的数据“民主化”。
已经有一些方法可以用我们曾经使用过的一小部分数据来训练更小的模型,这些模型可能会产生很好的结果。关于训练生成式人工智能所需的数据量,我们将走向何方?
从数据的角度来看,为了训练一个大型语言模型而抛弃厨房水槽的想法是问题的一部分,反映了旧的“快速行动,打破常规”的心态。这是有能力做到这一点的公司在抢夺土地,而人工智能法规仍在制定中。
现在尘埃落定了,人们开始意识到未来是更小、更专业的模型,针对非常具体的任务,并通过一种代理的、系统的方法来协调这些模型的动作。这种专门的模型方法提供了更多的透明度,并消除了AI模型的大部分“黑箱”性质,因为你是从头开始设计模型,一点一点地设计。
这也是监管的方向。毕竟,如果我们甚至不能量化人工智能应用于每项任务的风险,公司还怎么遵守“基于风险”的规定呢?
这种向更集中、更高效的模型的转变与不同的隐私和合成数据完美地结合在一起。我们可以精确地生成这些狭窄的人工智能模型所需的数据,确保高性能,而不会出现大量数据收集的伦理和实际问题。这是一种聪明的、有针对性的开发,而不是公司采取的暴力方法。