纸飞机数据抓取如何在不影响网站性能的前提下进行深度数据挖掘?
3 个回答
纸飞机这种平台抓数据,有几个地方需要注意下。
1.控制频率,不要太频繁的请求,别跟秒杀一样刷网页。
2.用代理IP轮换,避免封号。
3.抓取数据只取需要的数据,不要乱加载页面。
4.使用异步抓取工具,效率高,还节省资源。
5.避开高峰期,晚上大家活跃的时候,就不要干这种事了。
网站卡不卡,跟你的抓取方式有很大关系,别贪多,别贪快。
首先,别把爬虫刷得太猛,给网站留点呼吸的空间。
其次,采用分布式架构,让压力分散到各个入口,不要集中在一处。
最后,抓取时轻装上阵,只取所需内容,别搞得太复杂。这样既能提高效率,又不会对网站造成伤害。
别上来就猛刷,先控制一下爬虫频率。
采用分布式架构,用多台机器分摊压力。
用缓存机制,重复请求的页面直接缓存下来,不用再爬。
模拟真实用户,加点随机延时,模拟人工操作,别让网站看出你是机器人。
用API接口,很多平台都开放了API,直接调用比自己爬方便。
这么一搞,基本不影响网站性能。