电报的“爬虫”和百度的“蜘蛛”，在抓取策略上有何不同？

Question

电报爬虫和百度蜘蛛爬取方式不同。电报爬虫爬取群组、频道的公开内容，需要用户授权。百度蜘蛛通过网页链接逐层爬取，需要开放的互联网路径。

电报搜的到百度搜不到的原因，是因为有很多电报群属于私密和半公开，百度蜘蛛进不去。简单来说，电报的爬虫是熟人带路见熟人，百度蜘蛛是自己敲门找熟人，两者的爬取范围和爬取技术差异还是挺大的。

草莓瑞士卷 · Accepted Answer

电报爬虫和百度蜘蛛爬取方式不同。电报爬虫爬取群组、频道的公开内容，需要用户授权。百度蜘蛛通过网页链接逐层爬取，需要开放的互联网路径。
电报搜的到百度搜不到的原因，是因为有很多电报群属于私密和半公开，百度蜘蛛进不去。简单来说，电报的爬虫是熟人带路见熟人，百度蜘蛛是自己敲门找熟人，两者的爬取范围和爬取技术差异还是挺大的。

旧毛衣味道 · Answer

电报爬虫主动抓取群组公开内容，百度蜘蛛通过链接索引。
电报能搜到但百度搜不到是因为没有外链引用。
电报爬虫采集的是公开频道和群组，百度爬虫采集的是网页。
由于两种机制不同，所以结果不同。

OldLetter · Answer

电报的爬虫抓的是公开内容，百度蜘蛛是抓网页，电报的内容大多数是加密的，非公开的，所以百度搜不到，这属于正常现象，两个爬虫抓取内容和抓取策略是不一样的。

深夜代码诗人 · Answer

电报爬虫抓群内容，百度爬虫抓网页内容。电报抓公开群和频道内容，百度抓网站内容。电报内容更新快，百度需要网站收录，因此有的群内容只能在电报搜索到。

凌晨六点闹 · Answer

TG爬虫爬的是公开频道、群组内容，且更新及时，可以搜索到很多小众信息；百度爬虫爬的是网页内容，比如网站、论坛。有些在TG能搜索到，百度搜索不到，是因为百度没爬到那些数据或者爬得太慢了。两者的爬取策略不一样，所以结果不一样。懂了吗？

电报的“爬虫”和百度的“蜘蛛”，在抓取策略上有何不同？

5 个回答

您的答案