用户无需自己安装关联其他数据库,即可采集数据存储入库。
ForeLib数据库支持百亿级数据规模,是一种免费非关系型数据库,一种高效率、高安全性的,适应高吞吐量的分析性数据库。既可以快速搭建Web服务系统,也为企业内部构建IT信息系统提供了较完整的解决方案。优势:
①作为非关系数据库:
支持NoSQL和SQL两种模式。同时具备强大的数据库操作支持特性,有着更加灵活的数据操作方式,除了支持传统的SQL语句外,支持直接操作字段和数据偏移。作为通用的数据库系统,它具有极简又完整的数据管理模式。
②作为分布式数据库:
它具备分布式处理的优良性能。占用内存少,并发能力强,基于大数据的高性能和针对性设计。
③性能优秀
运行逻辑基于计算机底层编译,完全使用C++开发,性能优良,系统资源开销和CPU使用效率都很优秀,优于MySQL等主流数据库。采取多级缓存机制,用最小资源换取最高性能,达到资源与性能双优的程度。
1.全文检索
用户还可对采集到的数据进行字段、全文检索,对检索出的数据进行删除、导出等操作,从而灵活筛选采集到的数据。对全文检索到的数据,进行关键词高亮显示。
设置介绍:
按字段检索:关键词检索某一字段,导出、删除检索出的数据。
全文检索:关键词检索全部数据,导出、删除检索出的数据。
检索方法:
在数据浏览中,可按条件检索具体数据记录。检索方法如下:
(1)按字段检索
检索语句由以下内容构成:
①字段名称
②运算符:
包括等于(=)、不等于(!=)、大于()、大于等于(=)、小于()、小于等于(=)、and、or、in(查询某个字段是否包含某个字符串)。
③数字或字符串:
字符串需要用英文单引号或双引号括起来。
例如:
idandid
title=”北京”
(2)全文检索
可以支持直接输入检索词,进行数据库的全文检索。注意需要整体检索的字段,字段属性必须选择“索引字段”。
2.灵活导出
ForeLib数据库还可分组批量导出采集到的数据。①可以导出Excel、csv、txt等文本格式,还可以导出图片、视频等各种文件数据。
②可以导出全部记录,或某个字段,或某段记录。
③可以按照某种规律,将记录自动分割成多个文件导出。
④可以在导出的同时按照某个规律创建文件夹,将不同类型的数据存入不同命名的文件夹中。
分割存储:可按照记录数目、字段值进行分组批量导出。
下图所设置表示每50条数据导出为一个数据表文件。
下图所设置表示每个p_time值导出一个文档,即发布时间为同一天的文章内容导出为一个文档。
适用场景:
①采集的数据量太大
XlS文件最多存储行数据,当采集到的数据量高于该行数时,可设置记录数目,分组导出数据。
②按文件夹分类导出数据
按照某一分类字段,批量导出对应分类中的数据。如导出某地区所有的数据、导出某行业所有的数据、导出某网站所有的数据等。
3.支持分布式存储
ForeLib数据库,支持海量存储,支持数据在多个服务器上分布式存储,支持增加服务器以便增加存储容量,支持大规模数据读写,且数据读写性能不会随着数据量增长而降低。
用户可以通过采集系统将任务启动云采集,同时可进行节点资源分配、任务定时启动、任务数据实时查看等操作。
节点分配支持对于紧急任务可以优先分配节点资源;支持定时启动,可以按设置时间定点启动任务;支持任务数据实时查看,实时导出。
概念介绍:
分布式存储:分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。
适用场景
①分布采集统一存储
各服务器分开采集数据,将数据统一存储到总服务器中。
②分布采集分布存储
各服务器分开采集数据,分开存储到各自服务器中。
③分布采集分布存储交叉调用
各服务器分开采集数据,分开存储到各自服务器中,各服务器可调用指定服务器中的数据。
④其他分布式场景
可根据需求,定制各种分布式数据采集存储场景。
所以当用户批量采集大规模数据或者需要进行数据检索的时候,不需要安装任何数据库,直接使用ForeSpider就可以实现。
而且这样采集到的数据也是存储在本地,绝对保证用户数据采集及存储的私有性和安全性。安全性远高于市场上的云采集器及浏览器采集等爬虫软件。
lMysql数据库
首先下载并部署好Mysql数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。
连接本地数据库:数据路径写本地的IP地址或localhost,后加端口号。
连接远程数据库:数据路径填写远程服务器的IP地址。
注意:用Mysql客户端工具配置数据库时,编码须选择UTF-8或者GBK。
lSQLServer数据库
首先下载并部署好SQLServer数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。
lODBC数据库
可以通过微软的ODBC数据源,链接Access、Excel和SQLServer。
先在本地控制面板的管理工具中找到ODBC数据源。以ODBC(Excel)为例:
在ForeSpider数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。
lOracle数据库
首先下载并部署好Oracle数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。
适用场景:
①实时同步数据到某系统、网站
将ForeSpider爬虫软件关联到目标系统、网站的数据库中,建表保持一致,即可将数据实时同步到该系统、网站中。
②数据实时采集到本地数据库
将ForeSpider爬虫软件关联到本地数据库中,建表保持一致,即可将数据实时同步到该数据库中。
*以上网站仅为展示ForeSpider数据采集分析引擎采集范围及能力,请您在使用中,严格按照国家法律和对方网站的要求进行合法的数据爬取,不要将数据用于违法用途。
l前嗅简介
前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!
长按识别下面