背景获得这么大的数据量也就是爬虫啦,对就是爬虫。要对爬去的数据进行去重更新插入等操作目前状况分布式爬虫连续工作数天获取到了万条原始数据,所有数据都存在mongodb数据库中[这么做也是为了叫爬虫做的事情单一点只需要保证爬取的数据不会产生重复即可]mysql数据库存储了上一位老哥抓取的万条数据需求将着mongodb中万条数据与mysql数据库中的着万条数据按照主键进行比对,将mysql数据库中已经存在的数据根据mongodb中新抓取的此条数据更新其中的几个字段mysql数据库中没有的数据,按照相应格式进行插入问题问题一数据去重,不可能将mysql数据库中的万条数据的主键存入内存中,然后循环mongodb中的每一条数据判断此条数据是否存在mysql中这么做即使再内存中,速度也是异常缓慢的问题一解决办法[布隆过滤器]具体解析以及使用可看
转载请注明:http://www.aierlanlan.com/rzdk/6499.html