Meta发布了一款新的网络爬虫，用于搜索互联网并收集大量数据

北京时间8月21日，近日，Meta悄悄地发布了一款新的网络爬虫，用于搜索互联网并收集大量数据，为其人工智能模型提供支持。

据三家追踪网络抓取器的公司称，Meta新网络爬虫机器人Meta External Agent于上月推出，类似于OpenAI的GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示，Meta确实在7月底更新了一个面向开发者的公司网站，其中一个标签显示了新爬虫的存在，但Meta至今还没有公开宣布其新爬虫机器人。

Meta的Llama是最大的llm之一，虽然该公司没有透露最新版本的模型Llama 3使用的训练数据，但其初始版本的模型使用了由Common Crawl等其他来源收集的大型数据集。

今年早些时候，Meta的联合创始人、首席执行官马克·扎克伯格(Mark Zuckerberg)在一次财报电话会议上曾吹嘘说，公司的社交平台已经积累了一套用于人工智能训练的数据集，甚至“超过了Common Crawl”。

新爬虫的存在表明Meta庞大的数据库可能已经不够用了，因为该公司继续致力于更新Llama和扩展Meta AI，通常需要新的和高质量的培训数据来不断改进功能。

来自Dark Visitors的数据显示，全球近25%的最受欢迎的网站现在已屏蔽了GPTBot，但只有2%的网站屏蔽了Meta的新爬虫机器人。(作者/余青)

更多一手新闻，欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道，请微信搜索“凤凰网科技”。