TG 爬虫技术怎样处理网页中动态生成的图表数据?
1 个回答
TG爬虫遇到动态图表数据,这情况挺常见的。因为现在大部分图表都是前端通过JS动态加载出来的,直接请求拿不到完整内容。
你可以试试下面几个方法:
1. 打开浏览器Network面板,看图表数据是从哪个接口来的,直接请求这个接口拿到原始数据;
2. 使用Selenium或者Puppeteer这类工具模拟浏览器行为,等页面加载完成再提取数据;
3. 如果图表是通过WebSocket实时更新的,那就得监听socket接口,抓取实时传输的数据。
简单来说,核心思路就是绕过前端渲染,直奔数据源。搞定了接口,就一了百了。