OpenAI的GPTBot和其他人工智能网络爬虫现在被更多的公司屏蔽了

   日期:2024-09-14     来源:本站    作者:admin    浏览:120    

  

  

  数百家大公司和网站现在都在屏蔽ChatGPT的网络爬虫。

  现在,还有数十家公司屏蔽了Common Crawl的爬虫程序,Common Crawl是人工智能训练数据的主要来源。

  主要来自网络的独特、高质量的数据对人工智能模型的性能至关重要。

  NEW LOOK注册获取今日市场、科技和商业领域最重要新闻的内幕消息——每日提供。阅读预览广告

  越来越多的公司正试图避免让网络爬虫为人工智能模型的利益而自由地抓取和保存数据。

  上个月,OpenAI发布了自己的爬虫GPTBot,称它将尊重robots.txt,这是一种已有数十年历史的方法,网站可以通过该方法告诉网络爬虫忽略它。在1000个最受欢迎的网站中,大约有70个屏蔽了它,包括亚马逊和Tumblr。

  本周,Insider网站从original .ai获得了这方面的新数据。报告显示,在大约三周的时间里,屏蔽GPTbot的顶级网站数量跃升至250多个。

  新的GPTbot屏蔽列表包括Pinterest、Vimeo、GrubHub、Indeed、Apartments.com、《卫报》、《Live Science》、《今日美国》、NPR、CBS新闻和CBS体育、NBC新闻和CNBC、《纽约客》、《人物》,以及似乎所有由赫斯特和康泰纳仕出版的标题。就连weather.com也在屏蔽这个机器人。

  广告广告

  独特和准确的信息对于生成式AI模型的性能至关重要,比如OpenAI的GPT-4,它有效地记忆了大量的文本,以巧妙地回应用户的问题。这些模型训练的大部分信息都是从互联网上提取的,尽管其中大部分信息都是自己拥有的或受版权保护的。越来越多的人意识到这种做法已经导致了几起诉讼,新的政府法规可能即将出台。

  更多的公司现在也在屏蔽CCBot, Common Crawl使用的网络爬虫。Common Crawl总部位于欧洲,花了数年时间从网络上收集大量数据,包括受版权保护的内容,并组织数据集,作为大型语言模型(如meta的Llama)的免费训练数据。Originality.ai的数据显示,截至9月底,1,000个最受欢迎的网站中有近14%屏蔽了CCBot。

  那些屏蔽CCBot的公司包括亚马逊、Vimeo、Masterclass、Kelly Blue Book、《纽约时报》、《纽约客》和《大西洋月刊》。许多阻止CCBot的程序也会阻止GPTBot。尽管CCBot可能活跃了更长的一段时间,但似乎ChatGPT的恶名已经导致更多的公司屏蔽了它的爬虫程序。

  虽然在线企业一直在部署robots.txt,试图阻止它们的数据被用来训练人工智能模型,但许多科技公司已经更新了它们的服务条款和用户政策,使它们能够免费、全面地访问用户内容和活动,以用于人工智能项目和培训。

  广告广告

  以下是截至9月22日屏蔽GPTBot和CCBot的最大网站的完整列表:

  amazon.com

  quora.com

  nytimes.com

  theguardian.com

  shutterstock.com

  wikihow.com

  cnn.com

  sciencedirect.com

  usatoday.com

  healthline.com

  stackexchange.com

  alamy.com

  scribd.com

  webmd.com

  businessinsider.com

  dictionary.com

  reuters.com

  washingtonpost.com

  medicalnewstoday.com

  npr.org

  cbsnews.com

  goodhousekeeping.com

  亚马逊

  tumblr.com

  latimes.com

  insider.com

  glassdoor.com

  vocabulary.com

  investopedia.com

  slideshare.net

  amazon.de

  cosmopolitan.com

  nbcnews.com

  indiamart.com

  stackoverflow.com

  hindustantimes.com

  bloomberg.com

  cnbc.com

  people.com

  tvtropes.org

  amazon.in

  vimeo.com

  verywellhealth.com

  ikea.com

  espn.com

  indianexpress.com

  thesaurus.com

  pbs.org

  123 rf.com

  wattpad.com

  variety.com

  today.com

  popsugar.com

  thespruce.com

  uol.com.br

  amazon.fr

  geeksforgeeks.org

  elle.com

  economictimes.com

  pcmag.com

  theverge.com

  allrecipes.com

  thoughtco.com

  rollingstone.com

  wired.com

  nextdoor.com

  hollywoodreporter.com

  abc.net.au

  ew.com

  amazon.ca

  news18.com

  womenshealthmag.com

  rateyourmusic.com

  amazon.co.jp

  techradar.com

  airbnb.com

  ndtv.com

  lifewire.com

  tomsguide.com

  vulture.com

  everydayhealth.com

  polygon.com

  theconversation.com

  esquire.com

  prnewswire.com

  billboard.com

  menshealth.com

  只棕熊

  countryliving.com

  mashable.com

  gamesradar.com

  thehindu.com

  timesofindia.com

  deadline.com

  harpersbazaar.com

  medscape.com

  nymag.com

  refinery29.com

  radiotimes.com

  cbssports.com

  tandfonline.com

  theatlantic.com

  trulia.com

  amazon.es

  pinterest.es

  nationalgeographic.com

  bhg.com

  eater.com

  southernliving.com

  healthgrades.com

  vice.com

  picclick.com

  bustle.com

  newyorker.com

  eonline.com

  digitalspy.com

  opentable.com

  pinterest.de

  thepioneerwoman.com

  caranddriver.com

  byrdie.com

  livemint.com

  medicinenet.com

  teacherspayteachers.com

  cookpad.com

  thespruceeats.com

  bizjournals.com

  pagesjaunes.fr

  liputan6.com

  delish.com

  masterclass.com

  archiveofourown.org

  vox.com

  realsimple.com

  aarp.org

  francetvinfo.fr

  pinterest.fr

  kumparan.com

  theathletic.com

  travelandleisure.com

  vogue.com

  livescience.com

  apartments.com

  marketwatch.com

  glamour.com

  amazon.it

  cinemablend.com

  thrillist.com

  amazon.com.br

  pinterest.co.uk

  angi.com

  alamy.es

  usmagazine.com

  distractify.com

  bbcgoodfood.com

  jagran.com

  mercadolibre.com.mx

  androidauthority.com

  city-data.com

  foodandwine.com

  hellomagazine.com

  amazon.com.au

  gq.com

  ingles.com

  amarujala.com

  ieee.org

  prevention.com

  stern.de

  kbb.com

  edmunds.com

  marthastewart.com

  pcgamer.com

  justanswer.com

  health.com

  20 minutes.fr

  fortune.com

  homes.com

  scientificamerican.com

  popularmechanics.com

  verywellfit.com

  vanityfair.com

  chicagotribune.com

  verywellmind.com

  housebeautiful.com

  cntraveler.com

  allure.com

  spanishdict.com

  neverbounce.com

  answers.com

  moneycontrol.com

  architecturaldigest.com

  slate.com

  lonelyplanet.com

  inverse.com

  corriere.it

  actu.fr

  self.com

  tripsavvy.com

  instyle.com

  eatingwell.com

  superuser.com

  welt.de

  spiegel.de

  womansday.com

  seventeen.com

  hbr.org

  oprahdaily.com

  autotrader.com

  bonappetit.com

  sueddeutsche.de

  seriouseats.com

  liveabout.com

  seattletimes.com

  coursera.org

  livehindustan.com

  france24.com

  townandcountrymag.com

  dotesports.com

  worldplaces.me

  faz.net

  teenvogue.com

  motor1.com

  nj.com

  glamourmagazine.co.uk

  okdiario.com

  brides.com

  stylecaster.com

  alamyimages.fr

  jagranjosh.com

  theglobeandmail.com

  axios.com

  francebleu.fr

  tabelog.com

  thebalancemoney.com

  nydailynews.com

  sheknows.com

  naomedical.com

  verywellfamily.com

  nytimes.com

  shutterstock.com

  reuters.com

  goodhousekeeping.com

  tumblr.com

  cosmopolitan.com

  pixabay.com

  depositphotos.com

  pbs.org

  elle.com

  glosbe.com

  patch.com

  wired.com

  womenshealthmag.com

  esquire.com

  indiatoday.in

  menshealth.com

  countryliving.com

  zippia.com

  chron.com

  harpersbazaar.com

  tr-ex.me

  detik.com

  theatlantic.com

  newyorker.com

  digitalspy.com

  etymonline.com

  thepioneerwoman.com

  caranddriver.com

  hinative.com

  teacherspayteachers.com

  delish.com

  masterclass.com

  archiveofourown.org

  theathletic.com

  vogue.com

  glamour.com

  alltrails.com

  gq.com

  ingles.com

  prevention.com

  kbb.com

  popularmechanics.com

  vanityfair.com

  housebeautiful.com

  cntraveler.com

  allure.com

  spanishdict.com

  architecturaldigest.com

  self.com

  sfgate.com

  womansday.com

  songkick.com

  seventeen.com

  oprahdaily.com

  autotrader.com

  bonappetit.com

  aajtak.in

  coursera.org

  townandcountrymag.com

  faz.net

  teenvogue.com

  glamourmagazine.co.uk

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行