纸飞机数据抓取怎样应对网站图片防盗链机制?
1 个回答
网站防盗链,就是防止别人直接引用图片,这样可以减轻服务器负担,还能避免盗图。
你抓图失败,大概率是触发了这个机制。
解决方法有以下几种:
一是改请求头中的Referer,伪装成从网站内部访问,很多防盗链就是靠检测Referer来判断来源的;
二是找网站有没有开放图片的CDN接口,有些网站会把图片单独托管到其他域名,可能没加防链;
三是用浏览器开发者工具查看图片加载时的请求参数,有时需要携带token或时间戳等参数才能正常访问。
实际操作中,可以尝试用requests配合fake_useragent,或者直接用Selenium模拟浏览器访问,成功率更高一些。
但提醒一句,别乱来,别拿别人的图干违法的事。