TG 爬虫技术怎样处理网页中动态加载的评论数据？

Question

首先，TG的动态评论不是一次性加载的，要滑动才会加载更多。普通的爬虫打开网页就抓，后面的当然抓不到了。

你可以这么做：

1. 用selenium模拟操作，滑动网页触发加载；

2. 加个等待，等JS渲染完成再抓；

3. 抓包分析接口，找到评论数据的请求地址，直接调用接口，效率更高。

评论多的话，记得加个循环判断，直到没有新数据为止。实际使用别太频繁，别把人家服务器搞崩了就行。

二手哲学书 · Accepted Answer

首先，TG的动态评论不是一次性加载的，要滑动才会加载更多。普通的爬虫打开网页就抓，后面的当然抓不到了。
你可以这么做：
1. 用selenium模拟操作，滑动网页触发加载；
2. 加个等待，等JS渲染完成再抓；
3. 抓包分析接口，找到评论数据的请求地址，直接调用接口，效率更高。
评论多的话，记得加个循环判断，直到没有新数据为止。实际使用别太频繁，别把人家服务器搞崩了就行。

椰奶冻冻 · Answer

TG的动态评论一般都是接口加载的，用常规方法抓不到，因为页面不会一次性给你全部数据。
可以这样做：
1. 打开浏览器开发者工具（F12），在Network中找到XHR请求，看看评论数据是从哪个接口获取的。
2. 分析这个接口的参数，比如页码、token等，模拟请求就能获取数据。
3. 如果评论是滑动加载的，接口一般会用分页或者滚动位置做参数，找到规律就可以循环请求获取更多评论。
4. 也可以使用Selenium等工具，模拟真实滑动操作，再配合抓包提取。
核心还是找到数据接口，不要在前端页面上纠结。

窗台仙人掌 · Answer

TG的爬虫遇到动态加载评论，用普通方法确实抓不到。
可以试试下面这些方法：
1. 用开发者工具看网络请求，找到评论接口直接调用
2. 模拟浏览器行为，比如用Selenium自动下滑页面加载
3. 分析接口参数规律，构造分页请求逐条获取
关键就是找到数据是咋加载的，接口是关键。
搞懂参数，写个循环脚本就轻松拿数据啦。

TG 爬虫技术怎样处理网页中动态加载的评论数据？

3 个回答

您的答案