北京中科医院正规吗 http://finance.sina.com.cn/chanjing/b/20090930/09073071708.shtml欢迎大家在网易号搜索:py柯西,本人原创这个问题我们可以从两个角度去解答。一个是G的数据量用MySQL和MongoDB在存读取上有什么区别,另一个是数据本身的结构和你要进行的应用来考虑使用哪种数据库比较方便。G的数据量目前来看G的数据量其实对MySQL和MongoDB在存放都没有什么压力,如果你要经常读取,那么我建议你的MongoDB来做存储。原因在于MongoDB是内存映射模式,可以充分利用系统的内存资源,内存越大MongoDB的查询速度越快,毕竟磁盘与内存的I/O效率不是一个量级的。如果你对查询的速度要求不高,而且爬下来的数据是结构化数据,你又熟悉MySQL的语法及相关操作,完全可以用MySQL去存这个级别的数据量,就相当于你存储了一个大型Excel表格。数据结构如果数据结构是不一致的,即不会有些行缺失某些字段,有些行又多出一些字段,那么我建议使用MongoDB做存储处理。因为Mongo没有schema的严格定义,是json格式存取。如果爬虫的字段会经常变化,字段定义可能会变更,Mongo对这方面很宽松,很容易兼容。但如果你对事务有要求,最好还是选择MySQL。因为MongoDB这种NoSQL数据库并不是为了事务关系而设计的,具体应用还是看需求。总而言之,我个人是比较建议使用MongoDB做海量爬虫数据库存储。无论从数据结构的不规整以及数据存读取的速度要求,Mongo都可以胜任,同时MongoDB可以很轻松的横向扩展,分片,复制集群分分钟的事。不过最终落地还是看需求,还是要从数据存读取频度、量级还有应用场景综合考虑。每个技术都有自己的应用场景,技术的选择都需要与自己的应用场景结合!通常来说,千万条以上的数据,mysql数据库的性能会有明显下降,当然可以通过配置主从,或者使用中间件来提高性能。对于mongoDB来说,G,W的数据量应该算是正常,管理上会比mysql简单。但是如果需要较强的事务性、一致性等,mongo可能就不能满足要求。爬虫爬取下来的数据很多可以直接非结构化的存储,对存储的字段尚未有清晰确定,且因为你的量级很大,不会立马分析,所以建议存储在mongodb中,以便于进行下一步数据挖掘处理接下来让小编介绍一下mysq和mongodb的区别本人从事Python开发近9年,如果大家在学习Python的学习方法,学习路径,还有以后发展有任何疑问,都可以随时来咨询我,
转载请注明:http://www.aierlanlan.com/grrz/6619.html