OpenAI爬虫疯狂“偷”数据，7人团队十年心血网站一夜崩了，CEO：太离谱才察觉-山西妙点信息科技有限公司

　　“这基本上是一次DDoS攻击。”

　　几天前，乌克兰一家专注于人体3D模型的网站Trilegangers突然崩了，这让整个团队以及老板都有些措手不及。起初，该公司CEO Oleksandr Tomchuk只是收到一则警报，进而发现公司的电子商务网站已完全瘫痪了。

　　一经排查，殊不知，该团队发现，罪魁祸首竟然是——OpenAI此前研发的一款机器人GPTbot。

　　7人花了十余年时间构建的网站，差一点毁于一旦

　　据悉，Trilegangers是一个销售3D扫描数据的网站，这家拥有七名员工的公司花了十多年时间，建立了所谓的网络上最大的“人体数字替身”数据库，即从真实人体模型扫描而来的3D图像文件。

　　Triplegangers提供从手、头发、皮肤到完整身体模型的3D对象文件和照片，一应俱全。其处理的数据涵盖多个类别，如“脸部”、“全身”、“带姿势的全身”、“全身情侣”、“手部”、“手部雕像”等，网站展示的内容正是其业务核心所在。

　　具体来看，以“脸部”数据为例，这一类别中有1509人的数据，每个人注册了大约20种不同的面部表情。在其他类别中，每个产品至少有三张图像，因此总数据据说有数十万个点。

　　这一点也得到CEO Oleksandr Tomchuk的证实，其表示，“我们有超过65000种产品，每种产品都有一页内容介绍，每页至少有三张照片。”

Trilegangers所做的业务就是面向3D艺术家、视频游戏开发者，以及任何需要数字化再现真实人类特征的人群销售这些数据。

　　然而，Oleksandr Tomchuk称，不久前OpenAI GPTBot发送了“数万”个服务器请求，试图下载全部内容，数十万张照片及其详细描述。

　　这有一种，但凡Trilegangers有的，OpenAI都要的感觉，可是这些内容实则为付费产品。“OpenAI使用600个IP来抓取数据，我们仍在分析上周的日志，也许更多，”该团队在谈到机器人试图访问其网站的IP地址时说道。

　　“他们的爬虫程序正在摧毁我们的网站！”Oleksandr Tomchuk说，“这基本上是一次DDoS攻击。”

那么GPTbot究竟是什么？

　　不难回忆起来，GPTbot是OpenAI在2023年8月推出的一款网络爬虫机器人，用于抓取互联网数据，为训练和改进大模型（如ChatGPT）提供素材。

　　它会自动访问公开可用的网站，收集文本数据来增强模型能力。

　　OpenAI此前表示，GPTBot会严格遵守任何付费墙的规则，不会抓取需要付费的信息，并且也不会收集能追踪到个人身份的数据。即遵循网站的robots.txt文件中明确标示的规则。如果网站配置了禁止GPTBot抓取的标签，它理论上会停止访问该网站。

　　而robots.txt是一个用于网站管理的文本文件，它告诉搜索引擎爬虫（如Googlebot、Bingbot或GPTBot）哪些网页可以或不可以被抓取。这是一种被广泛接受的网络标准，称为机器人排除协议（Robots Exclusion Protocol,REP）。

　　简单来看，如果你不想让GPTBot访问你网站的任何内容，可以将以下代码添加到目录中robots.txt里面：

　　User-agent:GPTBot

　　Disallow:/

　　如果你想要允许访问网站上的某些内容（例如特定目录或文件），可以用以下代码对robots.txt进行以下更改：

　　User-agent:GPTBot

　　Allow:/directory-1/

　　Disallow:/directory-2/

　　除此之外，OpenAI还公布了OpenAI使用的爬虫IP地址，也可以根据IP地址来拒绝访问。

　　OpenAI公开了以上这些方式，并声称会遵守规则，显得诚意满满。

　　然而，令人无奈的是，一切的前提是得正确配置好“robots.txt”文件，才可以尽可能地避免被爬虫。

　　这一次Trilegangers就落到了“robots.txt”的坑中。虽然其在官网“使用条款”的第5条行为准则中清清楚楚地写着：

　　未经TG明确事先书面同意，不得使用任何机器人、爬虫、网站搜索/检索应用程序或其他手动或自动设备来检索、索引、抓取、挖掘数据或以其他方式收集网站内容，也不得复制或绕过网站的导航结构或展示方式。尽管有上述限制，在遵守我们网站根目录中robots.txt文件中发布的任何指示的前提下，TG授予公共搜索引擎的运营者权限，允许其使用爬虫从我们的网站复制材料，但仅限于为创建这些材料的公开可用、可搜索索引的唯一目的（且仅限必要范围内），不得缓存或存档这些材料。TG保留随时和不经通知撤销此权限的权利，无论是一般性撤销还是针对特定情况。

　　未经TG许可，禁止执行以下行为：

　　1.将本网站上展示的任何内容或图像用于人工智能或机器学习（“AI/ML”）研究或研究；

　　2.提取、复制、分发或向任何第三方提供本网站展示的任何内容或图像，用于AI/ML算法的训练、测试或开发；

　　3.参与任何涉及利用本网站内容或图像的AI/ML相关活动，包括但不限于数据集编制、模式识别、神经网络训练或任何形式的计算分析。

　　任何试图在未经TG有效许可的情况下将本网站内容或图像用于AI/ML目的的行为，均被视为违反本网站条款及我们的供应条款与条件，可能导致法律诉讼，并寻求适用法律下的一切补救措施。

　　但如今看来，仅凭这一点的声明毫无作用，GPTBot还是爬取到了其网站的内容，还让网站整个宕机了。

　　对此，据Techcrunch报道，此次Trilegangers并没有正确使用robot.txt，其中的标签没有明确告诉OpenAI的机器人GPTBot不要爬取该网站内容。这就意味着OpenAI和其他公司就会认为他们可以随心所欲地抓取数据。

　　更令人气愤的是，即使Trilegangers告诉了GPTBot不要抓取自家网站的内容，谁能料到，OpenAI还有ChatGPT-User和OAI-SearchBot机器人用来做爬虫工具。

　　还值得注意的是，即使更新了网站的robots.txt，也不要掉以轻心，因为OpenAI的系统可能需要大约24小时才能才能识别更新的robot.txt文件。

https://platform.openai.com/docs/bots

　　正所谓爬虫的工具千千万，企业有时根本防不胜防。

　　“如果爬取的数据少一点，或许都发现不了”

　　就像这一次，如果不是OpenAI的GPTBot爬取的数据过于庞大，也许Trilegangers可能还发现不了。Tomchuk在接受外媒Techcrunch采访时表示，「如果爬虫更加“温和”地抓取，他可能永远都不会发现。」

　　“这令人害怕，因为这些公司似乎钻了一个漏洞，声称‘你可以通过更新带有我们标签的robots.txt文件选择退出抓取’，”Tomchuk说，但这实际上把责任推给了网站所有者，让他们必须了解如何屏蔽这些爬虫。

　　更可怕的是，Tomchuk称他们连GPTBot究竟是从何时开始抓取的都不知道，更不要说OpenAI具体抓取了哪些内容。

　　这也让Tomchuk有些担心，“我们的业务对权利要求非常严格，因为我们扫描的是实际的人体，按照欧洲的GDPR等法律，他们不能随便拿网络上的任何照片使用。”

　　事件发生后，Triplegangers的网站不仅因OpenAI的爬虫被迫下线，CEO Tomchuk还预计将收到一份因爬虫导致的高CPU消耗和大量下载活动而产生的高额AWS账单。

　　同时，Tomchuk称他也没找到可以联系OpenAI的方法，也无法让他们删除这些素材。为此，Tomchuk无奈之下选择用Trilegangers官方Twitter账号发了一条致OpenAl、Microsoft、Meta、Google和其他使用爬虫程序的公司的官方声明：

　　除用于搜索目的的页面索引外，严禁在我们的网站上使用爬虫程序。未经有效许可，产禁将我们网站上的任何公开内容用于AI或ML应用程序。

　　截至目前，Triplegangers配置好了正确的robots.txt文件，并创建了一个Cloudflare账户，用于阻止GPTBot以及他发现的其他爬虫，例如Barkrowler（一个SEO爬虫）和Bytespider（TikTok的爬虫）。

　　引发争议的数据爬取

　　Triplegangers的经历引发了广泛关注，其公开此事后，不少其他网站运营者纷纷表示也曾遭遇类似情况。

　　 markerz：

　　我的其中一个网站曾被Meta的AI爬虫Meta-ExternalAgent完全摧毁。这个爬虫似乎有些“天真”，没有像Google Bot那样进行性能回退（performance back-off）。它不断地重复请求内容，直到我的服务器崩溃，然后短暂停止一分钟，再次发起更多请求。

　　我的解决方法是添加了一条Cloudflare规则，直接屏蔽该User-Agent的请求。我还为链接增加了更多nofollow规则，并更新了robots.txt文件，但这些规则仅仅是建议，某些爬虫似乎会忽略它们。Cloudflare还有一个功能可以屏蔽已知的AI爬虫，甚至怀疑是AI爬虫的请求：https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/。尽管我不喜欢Cloudflare的集中化，但这个功能确实非常方便。

　　griomnib：

　　我从事网站开发已经数十年，同时也从事过爬取、索引和分析数百万个网站的工作。只需遵循一个黄金法则：永远不要以比你希望别人对待你的网站更激进的方式加载其他网站。

　　这并不难做到，但这些AI公司使用的爬虫既低效又令人厌恶。

　　作为一个网站所有者，这种行为让我觉得他们对网络的基本礼仪毫无尊重。而作为一名从事分布式数据采集的工程师，我更是被这些爬虫的糟糕和低效深深冒犯了。

　　至此，Tomchuk也分享了他想把这一经历公开的原因，他希望其他小型在线企业了解，发现AI爬虫是否在抓取网站的版权内容的唯一方法就是主动检查日志。他并不是唯一一个受爬虫“侵害”的人，也绝非最后一个。

　　Tomchuk警告道：“大多数网站甚至不知道自己被这些爬虫抓取了。现在我们不得不每天监控日志活动，以发现这些爬虫。”

本文来源：36氪

文章转载于其他网络，如有侵权请联系我们及时删除！

新闻 资讯

OpenAI爬虫疯狂“偷”数据，7人团队十年心血网站一夜崩了，CEO：太离谱才察觉

新闻资讯