数百家大公司和网站现在都在屏蔽ChatGPT的网络爬虫。
现在,还有数十家公司屏蔽了Common Crawl的爬虫程序,Common Crawl是人工智能训练数据的主要来源。
主要来自网络的独特、高质量的数据对人工智能模型的性能至关重要。
NEW LOOK注册获取今日市场、科技和商业领域最重要新闻的内幕消息——每日提供。阅读预览广告
越来越多的公司正试图避免让网络爬虫为人工智能模型的利益而自由地抓取和保存数据。
上个月,OpenAI发布了自己的爬虫GPTBot,称它将尊重robots.txt,这是一种已有数十年历史的方法,网站可以通过该方法告诉网络爬虫忽略它。在1000个最受欢迎的网站中,大约有70个屏蔽了它,包括亚马逊和Tumblr。
本周,Insider网站从original .ai获得了这方面的新数据。报告显示,在大约三周的时间里,屏蔽GPTbot的顶级网站数量跃升至250多个。
新的GPTbot屏蔽列表包括Pinterest、Vimeo、GrubHub、Indeed、Apartments.com、《卫报》、《Live Science》、《今日美国》、NPR、CBS新闻和CBS体育、NBC新闻和CNBC、《纽约客》、《人物》,以及似乎所有由赫斯特和康泰纳仕出版的标题。就连weather.com也在屏蔽这个机器人。
广告广告
独特和准确的信息对于生成式AI模型的性能至关重要,比如OpenAI的GPT-4,它有效地记忆了大量的文本,以巧妙地回应用户的问题。这些模型训练的大部分信息都是从互联网上提取的,尽管其中大部分信息都是自己拥有的或受版权保护的。越来越多的人意识到这种做法已经导致了几起诉讼,新的政府法规可能即将出台。
更多的公司现在也在屏蔽CCBot, Common Crawl使用的网络爬虫。Common Crawl总部位于欧洲,花了数年时间从网络上收集大量数据,包括受版权保护的内容,并组织数据集,作为大型语言模型(如meta的Llama)的免费训练数据。Originality.ai的数据显示,截至9月底,1,000个最受欢迎的网站中有近14%屏蔽了CCBot。
那些屏蔽CCBot的公司包括亚马逊、Vimeo、Masterclass、Kelly Blue Book、《纽约时报》、《纽约客》和《大西洋月刊》。许多阻止CCBot的程序也会阻止GPTBot。尽管CCBot可能活跃了更长的一段时间,但似乎ChatGPT的恶名已经导致更多的公司屏蔽了它的爬虫程序。
虽然在线企业一直在部署robots.txt,试图阻止它们的数据被用来训练人工智能模型,但许多科技公司已经更新了它们的服务条款和用户政策,使它们能够免费、全面地访问用户内容和活动,以用于人工智能项目和培训。
广告广告
以下是截至9月22日屏蔽GPTBot和CCBot的最大网站的完整列表:
amazon.com
quora.com
nytimes.com
theguardian.com
shutterstock.com
wikihow.com
cnn.com
sciencedirect.com
usatoday.com
healthline.com
stackexchange.com
alamy.com
scribd.com
webmd.com
businessinsider.com
dictionary.com
reuters.com
washingtonpost.com
medicalnewstoday.com
npr.org
cbsnews.com
goodhousekeeping.com
亚马逊
tumblr.com
latimes.com
insider.com
glassdoor.com
vocabulary.com
investopedia.com
slideshare.net
amazon.de
cosmopolitan.com
nbcnews.com
indiamart.com
stackoverflow.com
hindustantimes.com
bloomberg.com
cnbc.com
people.com
tvtropes.org
amazon.in
vimeo.com
verywellhealth.com
ikea.com
espn.com
indianexpress.com
thesaurus.com
pbs.org
123 rf.com
wattpad.com
variety.com
today.com
popsugar.com
thespruce.com
uol.com.br
amazon.fr
geeksforgeeks.org
elle.com
economictimes.com
pcmag.com
theverge.com
allrecipes.com
thoughtco.com
rollingstone.com
wired.com
nextdoor.com
hollywoodreporter.com
abc.net.au
ew.com
amazon.ca
news18.com
womenshealthmag.com
rateyourmusic.com
amazon.co.jp
techradar.com
airbnb.com
ndtv.com
lifewire.com
tomsguide.com
vulture.com
everydayhealth.com
polygon.com
theconversation.com
esquire.com
prnewswire.com
billboard.com
menshealth.com
只棕熊
countryliving.com
mashable.com
gamesradar.com
thehindu.com
timesofindia.com
deadline.com
harpersbazaar.com
medscape.com
nymag.com
refinery29.com
radiotimes.com
cbssports.com
tandfonline.com
theatlantic.com
trulia.com
amazon.es
pinterest.es
nationalgeographic.com
bhg.com
eater.com
southernliving.com
healthgrades.com
vice.com
picclick.com
bustle.com
newyorker.com
eonline.com
digitalspy.com
opentable.com
pinterest.de
thepioneerwoman.com
caranddriver.com
byrdie.com
livemint.com
medicinenet.com
teacherspayteachers.com
cookpad.com
thespruceeats.com
bizjournals.com
pagesjaunes.fr
liputan6.com
delish.com
masterclass.com
archiveofourown.org
vox.com
realsimple.com
aarp.org
francetvinfo.fr
pinterest.fr
kumparan.com
theathletic.com
travelandleisure.com
vogue.com
livescience.com
apartments.com
marketwatch.com
glamour.com
amazon.it
cinemablend.com
thrillist.com
amazon.com.br
pinterest.co.uk
angi.com
alamy.es
usmagazine.com
distractify.com
bbcgoodfood.com
jagran.com
mercadolibre.com.mx
androidauthority.com
city-data.com
foodandwine.com
hellomagazine.com
amazon.com.au
gq.com
ingles.com
amarujala.com
ieee.org
prevention.com
stern.de
kbb.com
edmunds.com
marthastewart.com
pcgamer.com
justanswer.com
health.com
20 minutes.fr
fortune.com
homes.com
scientificamerican.com
popularmechanics.com
verywellfit.com
vanityfair.com
chicagotribune.com
verywellmind.com
housebeautiful.com
cntraveler.com
allure.com
spanishdict.com
neverbounce.com
answers.com
moneycontrol.com
architecturaldigest.com
slate.com
lonelyplanet.com
inverse.com
corriere.it
actu.fr
self.com
tripsavvy.com
instyle.com
eatingwell.com
superuser.com
welt.de
spiegel.de
womansday.com
seventeen.com
hbr.org
oprahdaily.com
autotrader.com
bonappetit.com
sueddeutsche.de
seriouseats.com
liveabout.com
seattletimes.com
coursera.org
livehindustan.com
france24.com
townandcountrymag.com
dotesports.com
worldplaces.me
faz.net
teenvogue.com
motor1.com
nj.com
glamourmagazine.co.uk
okdiario.com
brides.com
stylecaster.com
alamyimages.fr
jagranjosh.com
theglobeandmail.com
axios.com
francebleu.fr
tabelog.com
thebalancemoney.com
nydailynews.com
sheknows.com
naomedical.com
verywellfamily.com
nytimes.com
shutterstock.com
reuters.com
goodhousekeeping.com
tumblr.com
cosmopolitan.com
pixabay.com
depositphotos.com
pbs.org
elle.com
glosbe.com
patch.com
wired.com
womenshealthmag.com
esquire.com
indiatoday.in
menshealth.com
countryliving.com
zippia.com
chron.com
harpersbazaar.com
tr-ex.me
detik.com
theatlantic.com
newyorker.com
digitalspy.com
etymonline.com
thepioneerwoman.com
caranddriver.com
hinative.com
teacherspayteachers.com
delish.com
masterclass.com
archiveofourown.org
theathletic.com
vogue.com
glamour.com
alltrails.com
gq.com
ingles.com
prevention.com
kbb.com
popularmechanics.com
vanityfair.com
housebeautiful.com
cntraveler.com
allure.com
spanishdict.com
architecturaldigest.com
self.com
sfgate.com
womansday.com
songkick.com
seventeen.com
oprahdaily.com
autotrader.com
bonappetit.com
aajtak.in
coursera.org
townandcountrymag.com
faz.net
teenvogue.com
glamourmagazine.co.uk