电报的“爬虫”和百度的“蜘蛛”,在抓取策略上有何不同?
5 个回答
电报爬虫和百度蜘蛛爬取方式不同。电报爬虫爬取群组、频道的公开内容,需要用户授权。百度蜘蛛通过网页链接逐层爬取,需要开放的互联网路径。
电报搜的到百度搜不到的原因,是因为有很多电报群属于私密和半公开,百度蜘蛛进不去。简单来说,电报的爬虫是熟人带路见熟人,百度蜘蛛是自己敲门找熟人,两者的爬取范围和爬取技术差异还是挺大的。
电报爬虫主动抓取群组公开内容,百度蜘蛛通过链接索引。
电报能搜到但百度搜不到是因为没有外链引用。
电报爬虫采集的是公开频道和群组,百度爬虫采集的是网页。
由于两种机制不同,所以结果不同。
电报的爬虫抓的是公开内容,百度蜘蛛是抓网页,电报的内容大多数是加密的,非公开的,所以百度搜不到,这属于正常现象,两个爬虫抓取内容和抓取策略是不一样的。
电报爬虫抓群内容,百度爬虫抓网页内容。电报抓公开群和频道内容,百度抓网站内容。电报内容更新快,百度需要网站收录,因此有的群内容只能在电报搜索到。
TG爬虫爬的是公开频道、群组内容,且更新及时,可以搜索到很多小众信息;百度爬虫爬的是网页内容,比如网站、论坛。有些在TG能搜索到,百度搜索不到,是因为百度没爬到那些数据或者爬得太慢了。两者的爬取策略不一样,所以结果不一样。懂了吗?