电报的“爬虫”和百度的“蜘蛛”,在抓取策略上有何不同?

魔方调酒师魔方调酒师06月15日1686

电报的爬虫跟百度蜘蛛抓东西有什么区别?为什么有的在电报能搜到,在百度搜不到?是抓取方式不一样吗?求大神讲讲原理~

5 个回答

草莓瑞士卷
草莓瑞士卷回答于 06 月 15 日
最佳答案

电报爬虫和百度蜘蛛爬取方式不同。电报爬虫爬取群组、频道的公开内容,需要用户授权。百度蜘蛛通过网页链接逐层爬取,需要开放的互联网路径。

电报搜的到百度搜不到的原因,是因为有很多电报群属于私密和半公开,百度蜘蛛进不去。简单来说,电报的爬虫是熟人带路见熟人,百度蜘蛛是自己敲门找熟人,两者的爬取范围和爬取技术差异还是挺大的。

旧毛衣味道
旧毛衣味道回答于 06 月 15 日

电报爬虫主动抓取群组公开内容,百度蜘蛛通过链接索引。

电报能搜到但百度搜不到是因为没有外链引用。

电报爬虫采集的是公开频道和群组,百度爬虫采集的是网页。

由于两种机制不同,所以结果不同。

OldLetter
OldLetter回答于 06 月 16 日

电报的爬虫抓的是公开内容,百度蜘蛛是抓网页,电报的内容大多数是加密的,非公开的,所以百度搜不到,这属于正常现象,两个爬虫抓取内容和抓取策略是不一样的。

深夜代码诗人
深夜代码诗人回答于 06 月 19 日

电报爬虫抓群内容,百度爬虫抓网页内容。电报抓公开群和频道内容,百度抓网站内容。电报内容更新快,百度需要网站收录,因此有的群内容只能在电报搜索到。

凌晨六点闹
凌晨六点闹回答于 06 月 20 日

TG爬虫爬的是公开频道、群组内容,且更新及时,可以搜索到很多小众信息;百度爬虫爬的是网页内容,比如网站、论坛。有些在TG能搜索到,百度搜索不到,是因为百度没爬到那些数据或者爬得太慢了。两者的爬取策略不一样,所以结果不一样。懂了吗?

您的答案