TG 爬虫技术怎样绕过网站的反爬虫 JavaScript 检测?
1 个回答
网站反爬机制越来越严格,特别是那些通过 js 来检测是否是浏览器的,确实比较难搞。绕过它有几种思路:
一、无头浏览器,如 puppeteer 或者 playwright,可以模拟人的操作,加载 js 渲染页面,网站就不会认为你是爬虫了。
二、如果你只是要部分数据,可以抓包看接口,现在很多网站数据都是通过 ajax 请求获取的,直接调用接口即可绕过前端 js 检测。
三、加上请求头伪装成浏览器访问,比如 User-Agent 和 Referer,不要用默认的 python 爬虫头,换成常见的 Chrome 或者 Firefox。
四、遇到复杂的 js 逻辑可以考虑用第三方工具解析,比如 selenium 或者 pyppeteer 这些工具帮你处理 js。
注意不要请求太频繁,容易触发风控。慢慢尝试,调参数,大部分情况都可解决。