纸飞机数据抓取如何在数据抓取过程中处理数据的重复与冗余？

Question

纸飞机抓数据的时候，重复数据真的是让人头大。这里有几个实用的去重技巧，供你参考：1. 唯一标识法：在数据中加个唯一标识，比如时间戳、URL的MD5值，判断一下是不是已经抓过了。

泡泡可颂 · Accepted Answer

纸飞机抓数据的时候，重复数据真的是让人头大。这里有几个实用的去重技巧，供你参考：
1. 唯一标识法：在数据中加个唯一标识，比如时间戳、URL的MD5值，判断一下是不是已经抓过了。
2. 本地记录法：每次抓完把数据的ID或URL记录到一个文件里，下次抓之前先查一下，避免重复。
3. 数据库去重：利用数据库的主键或唯一索引功能，自动把重复的数据给拦截掉。
4. 抓取频率控制：别一上来就全部抓，控制一下节奏，也能降低重复率。
5. 源数据更新机制：有些网页是假更新，内容其实没变，提前发现这些“假更新”，就能直接跳过。
6. 队列系统：用Redis之类的队列系统，能帮你管理待抓任务，避免重复入队。
实际使用时可以多种方式组合，效果会更明显。

椰奶冻冻 · Answer

去重是件很常见事情，有以下几种方式：
1. 抓取前先判断，用唯一标识（id、url等）判断库中是否已有，没有再入库。
2. 入库时用数据库自带的去重功能，比如mysql的唯一索引。
3. 每次抓完用脚本或工具去重，python写个去重脚本很快。
4. 如果源数据有固定的更新规律，按时间抓取，只抓新内容，也可以避免重复。
5. 纸飞机抓取的话，最好记录上次抓取的位置或者时间，下次接着抓。
以上方法结合使用，效果更佳。

果酱面包 · Answer

1. 可以用一个唯一标识，比如url的hash，抓到一条就存起来，下次判断下有没有重复；
2. 用数据库去重，比如MongoDB自带去重；
3. 抓取的时候加个判断，发现重复就跳过。
希望有帮助。

纸飞机数据抓取如何在数据抓取过程中处理数据的重复与冗余？

3 个回答

您的答案