OpenAI部署爬虫来真空你的帖子和训练AI与他们_国际

　　OpenAI推出了一款名为“GPTBot”的新型网络爬虫，它将在互联网上搜索内容，以训练其大型语言模型，如支持ChatGPT的GPT-4。

　　OpenAI网站上的一篇文章写道:“允许GPTBot访问你的网站可以帮助人工智能模型变得更加准确，提高它们的总体能力和安全性。”

　　这家人工智能巨头还声称，GPTBot被“过滤”，以删除付费来源、个人身份信息和违反其政策的文本。

　　幸运的是，OpenAI确实提供了一种通过在网站的robot.txt中添加一个条目来轻松阻止GPTBot的方法，该文件告诉来自谷歌等搜索引擎的网络爬虫他们被允许访问的内容。

　　此外，管理员可以自定义GPTBot可以抓取网站的哪些部分。它的多个ip也可用，很容易被屏蔽。

　　到目前为止，ChatGPT背后的大型语言模型是根据截至2021年9月收集的大量在线数据进行训练的。

　　在截止日期之前被抓取的数据没有办法追溯删除，但阻止它的新网络爬虫至少可以让那些想要阻止它继续前进的网站免受未来的影响。

　　你可以打赌，许多网站所有者可能并不热衷于让他们的内容被人工智能抓取和模仿，但他们已经在利用这一点。

　　一个例子是流行的科幻杂志《Clarkesworld》，它在X(以前称为Twitter)上宣布屏蔽GPTBot。

　　科技媒体The Verge也悄悄地这么做了，而且已经有无数文章在流传，建议如何阻止爬虫程序。

　　当然，不管是好是坏，网络爬虫是现代互联网的命脉，并不是什么新鲜事。在许多情况下，网站被鼓励让来自谷歌和其他搜索引擎的爬虫通过，以帮助他们带来网络流量。

　　不过，现在很多人觉得，让他们抓取数据来训练生成式人工智能是一个太遥远的桥梁。

　　例如，最近一起针对OpenAI的诉讼认为，由于OpenAI的聊天机器人在未经许可的情况下接受了所有人的写作训练——从书籍到在线文章——这构成了盗窃。

　　OpenAI不顾诉讼，宣布了GPTBot，这可能表明它并不担心诉讼的结果。另一方面，通过现在给网站提供屏蔽爬虫的选项，它可能也掩盖了它的踪迹。

猿人星球,2001版猿人	看看蒂姆·库克(Tim C
波音公司下调2024年现