相关问题
TG 爬虫技术怎样处理网页中加密的 SVG 图形数据?
TG的爬虫遇到加密的SVG图片,第一步就是先搞清楚它是怎么加密的。是混淆编码、base64,还是自己写的加密算法?我们可以通过浏览器的开发者工具来查看网络请求,看看SVG的加载方式和参数。
10 个点赞 1 回答 640 浏览TG 爬虫技术怎样处理网页中动态加载的评论数据?
首先,TG的动态评论不是一次性加载的,要滑动才会加载更多。普通的爬虫打开网页就抓,后面的当然抓不到了。你可以这么做:1. 用selenium模拟操作,滑动网页触发加载;2. 加个等待,等JS渲染完成再抓;3. 抓包分析接口,找到评论数据的请求地址,直接调用接口,效率更高。
9 个点赞 1 回答 878 浏览TG 爬虫技术怎样绕过网站的反爬虫 JavaScript 检测?
网站反爬机制越来越严格,特别是那些通过 js 来检测是否是浏览器的,确实比较难搞。绕过它有几种思路:一、无头浏览器,如 puppeteer 或者 playwright,可以模拟人的操作,加载 js 渲染页面,网站就不会认为你是爬虫了。
12 个点赞 1 回答 978 浏览TG 爬虫技术怎样处理网页中的多层框架数据提取?
TG爬虫处理多层iframe的核心就是“一层层穿透”。简单说就是先定位到上一层iframe,再逐层进入下一层iframe。先用TG查看页面结构,确定iframe层级关系,通过“元素检查器”找到iframe节点。
14 个点赞 1 回答 1004 浏览TG 爬虫技术怎样应对网站的动态反爬验证码机制?
TG爬虫遇到验证码真的让人头大,下面给大家几个思路。第一种是看网站有没有没加验证码的接口,有些接口直接调用就行,绕过验证码页面。第二种是用第三方打码平台,像打码兔、猪猪打码这些。
8 个点赞 1 回答 511 浏览