如何将爬虫数据写入Mysql等各类数据库

四川白癜风微信交流群 http://www.sinbg.com/fengshang/xinchao/675.html
置顶“前嗅大数据”和数据大牛一起成长,做牛气哄哄的大数据人在做数据相关项目时,往往需要将爬虫采集到的数据一步到位存储到系统所在的数据库中,这样就可以直接调用采集到的数据。或者当采集大批量的数据时,为了方便我们保存和查找数据或者根据某条件查找特定数据时,就需要将采集的数据直接存储到数据库中。今天就来为大家介绍一下,如何将ForeSpider爬虫软件采集的数据,直接存储到ForeLib/Mysql/SQLSever/Oracle/ODBC等数据库中。lForeLib数据库ForeSpider爬虫软件内置ForeLib数据库,用户下载安装ForeSpider数据采集系统后,系统默认关联ForeLib数据库,如下图所示:

用户无需自己安装关联其他数据库,即可采集数据存储入库。

ForeLib数据库支持百亿级数据规模,是一种免费非关系型数据库,一种高效率、高安全性的,适应高吞吐量的分析性数据库。既可以快速搭建Web服务系统,也为企业内部构建IT信息系统提供了较完整的解决方案。

优势:

①作为非关系数据库:

支持NoSQL和SQL两种模式。同时具备强大的数据库操作支持特性,有着更加灵活的数据操作方式,除了支持传统的SQL语句外,支持直接操作字段和数据偏移。作为通用的数据库系统,它具有极简又完整的数据管理模式。

②作为分布式数据库:

它具备分布式处理的优良性能。占用内存少,并发能力强,基于大数据的高性能和针对性设计。

③性能优秀

运行逻辑基于计算机底层编译,完全使用C++开发,性能优良,系统资源开销和CPU使用效率都很优秀,优于MySQL等主流数据库。采取多级缓存机制,用最小资源换取最高性能,达到资源与性能双优的程度。

1.全文检索

用户还可对采集到的数据进行字段、全文检索,对检索出的数据进行删除、导出等操作,从而灵活筛选采集到的数据。对全文检索到的数据,进行关键词高亮显示。

设置介绍:

按字段检索:关键词检索某一字段,导出、删除检索出的数据。

全文检索:关键词检索全部数据,导出、删除检索出的数据。

检索方法:

在数据浏览中,可按条件检索具体数据记录。检索方法如下:

(1)按字段检索

检索语句由以下内容构成:

①字段名称

②运算符:

包括等于(=)、不等于(!=)、大于()、大于等于(=)、小于()、小于等于(=)、and、or、in(查询某个字段是否包含某个字符串)。

③数字或字符串:

字符串需要用英文单引号或双引号括起来。

例如:

idandid

title=”北京”

(2)全文检索

可以支持直接输入检索词,进行数据库的全文检索。注意需要整体检索的字段,字段属性必须选择“索引字段”。

2.灵活导出

ForeLib数据库还可分组批量导出采集到的数据。

①可以导出Excel、csv、txt等文本格式,还可以导出图片、视频等各种文件数据。

②可以导出全部记录,或某个字段,或某段记录。

③可以按照某种规律,将记录自动分割成多个文件导出。

④可以在导出的同时按照某个规律创建文件夹,将不同类型的数据存入不同命名的文件夹中。

分割存储:可按照记录数目、字段值进行分组批量导出。

下图所设置表示每50条数据导出为一个数据表文件。

下图所设置表示每个p_time值导出一个文档,即发布时间为同一天的文章内容导出为一个文档。

适用场景:

①采集的数据量太大

XlS文件最多存储行数据,当采集到的数据量高于该行数时,可设置记录数目,分组导出数据。

②按文件夹分类导出数据

按照某一分类字段,批量导出对应分类中的数据。如导出某地区所有的数据、导出某行业所有的数据、导出某网站所有的数据等。

3.支持分布式存储

ForeLib数据库,支持海量存储,支持数据在多个服务器上分布式存储,支持增加服务器以便增加存储容量,支持大规模数据读写,且数据读写性能不会随着数据量增长而降低。

用户可以通过采集系统将任务启动云采集,同时可进行节点资源分配、任务定时启动、任务数据实时查看等操作。

节点分配支持对于紧急任务可以优先分配节点资源;支持定时启动,可以按设置时间定点启动任务;支持任务数据实时查看,实时导出。

概念介绍:

分布式存储:分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。

适用场景

①分布采集统一存储

各服务器分开采集数据,将数据统一存储到总服务器中。

②分布采集分布存储

各服务器分开采集数据,分开存储到各自服务器中。

③分布采集分布存储交叉调用

各服务器分开采集数据,分开存储到各自服务器中,各服务器可调用指定服务器中的数据。

④其他分布式场景

可根据需求,定制各种分布式数据采集存储场景。

所以当用户批量采集大规模数据或者需要进行数据检索的时候,不需要安装任何数据库,直接使用ForeSpider就可以实现。

而且这样采集到的数据也是存储在本地,绝对保证用户数据采集及存储的私有性和安全性。安全性远高于市场上的云采集器及浏览器采集等爬虫软件。

lMysql数据库

首先下载并部署好Mysql数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。

连接本地数据库:数据路径写本地的IP地址或localhost,后加端口号。

连接远程数据库:数据路径填写远程服务器的IP地址。

注意:用Mysql客户端工具配置数据库时,编码须选择UTF-8或者GBK。

lSQLServer数据库

首先下载并部署好SQLServer数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。

lODBC数据库

可以通过微软的ODBC数据源,链接Access、Excel和SQLServer。

先在本地控制面板的管理工具中找到ODBC数据源。以ODBC(Excel)为例:

在ForeSpider数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。

lOracle数据库

首先下载并部署好Oracle数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。

适用场景:

①实时同步数据到某系统、网站

将ForeSpider爬虫软件关联到目标系统、网站的数据库中,建表保持一致,即可将数据实时同步到该系统、网站中。

②数据实时采集到本地数据库

将ForeSpider爬虫软件关联到本地数据库中,建表保持一致,即可将数据实时同步到该数据库中。

*以上网站仅为展示ForeSpider数据采集分析引擎采集范围及能力,请您在使用中,严格按照国家法律和对方网站的要求进行合法的数据爬取,不要将数据用于违法用途。

l前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

长按识别下面


转载请注明:http://www.aierlanlan.com/rzfs/494.html

  • 上一篇文章:
  •   
  • 下一篇文章: