开源搜索引擎solr介绍

北京荨麻疹治疗医院 http://baidianfeng.39.net/a_zhiliao/210116/8595950.html

1什么是solr?

“内事不决问百度,外事不决问谷歌”,相信大家对百度、谷歌等搜索引擎都很熟悉了。网上信息浩瀚万千,而且毫无秩序,所以搜索引擎对用户的作用就体现出来了。

不过,因为商业原因,百度、谷歌等搜索引擎都不是开源的。但是,大家不用担心,有闭源的,当然也有开源的搜索引擎。优秀的开源搜索引擎有ApacheSolr、ElasticSearch、IndexTank等等,今天我们主要介绍ApacheSolr。

ApacheSolr是一个高性能,基于Lucene的全文搜索服务器。做为一款搜索引擎,solr不具备爬虫一样采集信息的能力,而是专注于信息的存储和检索。许多朋友误认为solr是数据库,从广义上讲也可认为是数据库,但是它和传统意义上的数据库还是有些区别的。

相信使用过关系型数据库的朋友们一定都做过搜索的功能,比如:有条记录,我想搜索记录中含有“云计算”字段的记录,可以使用关系型数据库提供的“模糊搜索”的功能。“模糊搜索”能不能满足你的要求呢?如果记录数小,条、0条记录当然没问题。但是,如果有万条、0万条甚至上亿,那么“模糊搜索”的效果就会大大折扣。而这时,我们就需要用到solr等搜索引擎了。

Solr是基于lucene的倒排索引技术(也叫全文索引,mysql等关系型数据库也有这个概念,但是“术业有专攻”,solr实现的更好),什么是倒排索引,下面我会做具体介绍。

1.1倒排索引

传统意义的数据库,做索引时,都是一个文档id对应一个或者多个内容字段。而倒排索引则是一个内容字段对应多个文档id。什么意思呢?举个例子,假设分别把下面三句话存储到mysql和solr中:

IlikesportsIlikereadingIlikereadingbooks

在mysql中,一个文档id对应一条记录,一条记录中就会有一个或多个内容字段。比如:文档id为1,对应“Ilikesports”;文档id为2,对应“Ilikereading”。而在搜索时,就会一条记录一条记录的去检索,比如:我想搜索“books”字段,就会先从文档1找起,文档1没有,文档2也没有,文档3找到了,好,返回数据。相对来说,这样效率有点低。

而在solr中,倒排索引就相反了。它会这样做索引,“I”内容字段,对应文档id为1和2;“like”内容字段,对应文档id为1和2;“sports”内容字段,对应文档id为1;“reading”内容字段,对应文档id为2和3;“books”内容字段,对应文档id为3,等等。这样做的好处在哪呢?

比如:我想搜索“likereadingbooks”这句话,我会把这句话分成三个单词“like”、“reading”、“books”(这在solr中叫分词,后面会详细讲),这时我开始通过内容字段查找文档id。比如我找“like”,文档id为1、2、3,那么这三个文档都可以取出来。然后,我接着找“reading”,这时,文档id为1的没有,只剩下2和3了。最后,我找“books”,只剩下文档id为3的存在了。根据一定的算法,这次搜索结果,会给三个文档打分,从高到低:文档3、文档2、文档1。返还给用户优先级,也是3、2、1。

这样做的好处是:不用按照文档id,一个一个的遍历内容字段了,而是根据多个内容字段,去找交叉最多的文档id(当然了,匹配文档id不止内容字段交叉,还有时间、权重等因素,方便理解,省略了),这样做的话,搜索速度立马上升。

1.2基本操作

Solr是基于Java语言开发的开源搜索引擎,内部嵌入了jetty,提供了web界面,用户可以很方便的在web上操作。当然,考虑到稳定性,我没有使用solr自带的jetty,而是选择了tomcat。

1.2.1下载solr和tomcat

从Apache


转载请注明:http://www.aierlanlan.com/tzrz/4015.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了