全文检索工具lucene、solr的区别以及MongoDB的全文检索_蔚蓝色 ...

相关文章推荐

飞奔的蚂蚁 · 笔记︱几款多模态向量检索引擎：Faiss ...· 1 年前 ·

飞奔的蚂蚁 · Elasticsearch：普通检索和向量检 ...· 1 年前 ·

飞奔的蚂蚁 · 全文检索工具lucene、solr的区别以及 ...· 1 年前 ·

飞奔的蚂蚁 · 主题词检索与关键词检索的区别| 四川大学图书馆· 1 年前 ·

飞奔的蚂蚁 · 搜索引擎-第一章：搜索引擎和信息检索- ...· 1 年前 ·

1、Lucene是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎.

2、Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Solr Get操作提出查找请求，并得到XML格式的返回结果；

3、Solr和Lucene的本质区别有以下三点：搜索服务器，企业级和管理。Lucene本质上是搜索库，不是独立的应用程序，而Solr是。Lucene专注于搜索底层的建设，而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理，而Solr负责。所以说，一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展。

4、NoSQl数据库MongoDB的全文检索说明：
MongoDB有一个特殊的索引用在文档中搜索文本，之前的博客都是用精确匹配来查询字符串，这些技术有一定的限制。在搜索大块文本的速度非常慢，而且无法处理自然语言礼节的问题。全文本索引使用的是“倒排索引”的思想来做的，和当前非常开源的lucene（全文检索，Apacle基金会下的开源项目）项目是一样的思想来做的。使用全文本索引可以非常快的进行文本搜索，MongoDB支持多种语言，可惜在免费版中，并不支持世界第一的火星文语言（汉语）。查MongoDB的官网可以看到，在企业版中是支持汉语的全文索引的。

如果公司用的是免费版的MongoDB，而又需要用到中文的全文索引，建议使用lucene或者solr等开源项目来做。（没钱就得用技术来补，赤裸裸的现实。）
本文参考：作者白及的lucene、solr区别 
 作者“壮壮熊”的玩转mongodb（七）：索引，速度的引领（全文索引、地理空间索引）
LuMongo不再被积极开发。 现在我们的工作集中在
使用Lucene进行分布式实时搜索
 LuMongo是基于Lucene的实时分布式搜索和存储系统。 LuMongo从头开始设计，可以在服务器之间垂直和水平扩展。 LuMongo将Lucene索引直接存储到MongoDB中。 文档可以本地存储在MongoDB中。 当以本地方式存储文档时，可以从MongoDB中正常查询文档，并且可以使用和 。
LuMongo是：
纯Java
LuMongo支持：
使用单个查询搜索多个索引
将相关文档与文档一起存储
要了解更多信息，请参见 ：
				由于公司项目的要求，要求使用lucene进行搜索，数据源是mongodb，所以这里我先简单介绍一下mongodb。
1mongodb
首先是下载mongodb。http://www.mongodb.org/downloads。下载好之后如下图，
里面最重要的是mongo.exe和mongod.exe.你每次启动的话用命令每次都要输入mongod --dbpath D:/MongoDB/d...
				生活中IT男是最痛苦的！在工作中会有各种问题出现，各种各样的坑要填！~
下面是我碰到的一个技术难题，用了两天时间才解决。感觉累，但是觉得这个方法能够满足需求吧。
拿出来和大家分享下！
      数据库分类：数据生产库（mysql5.5）、前台展示库（mysql5.7）、全文检索库（MongoDB3.4）
      服务器：生产系统（Windows）、前台展示（Linux
MongoDB Atlas全文搜索索引利用Apache Lucene为语音分析和评分等功能提供丰富的文本搜索功能。
MongoDB支持执行字符串内容的文本搜索的查询操作。要执行文本搜索，MongoDB使用 文本索引和$text运算符。
示例为mongodb官网的相关示例
stores集合
Step 1 插入数据
db.stores.insert(
		 {_id ： 1 ， n...
				实验室需要一个mongodb数据库的搜索引擎，经过几天的奋战，总算是写完了，这里就记录一下lucene对mongodb数据库建索引的经验吧。
我的方法是多线程+RAMDirectory
刚开始，我以为很简单，从服务器上取出了90000条数据到本地数据库，然后每从数据库取出一条数据便对其建索引，结果就这样很傻逼地一条一条地建了一个小时，而且只有10000条。请教了谷歌，发现lucene...
从一个Reader字符流开始，创建一个基于Reader的Tokenizer分词器，经过三个TokenFilter生成语汇单元Token。
要看分析器的分析效果，只需要看Tokenstream中的内容就可以了。每个分析器都有一个方法tokenStream，返回一个tokenStream对象。
分析器的分...
				snowball(默认分词器)只有在Mongodb
 3.2之后的企业版中才开始加入了对中文的支持，之前或者社区的版本在建立全文索引时会自动过滤中文字符。
在Mongodb 3.2企业版中，对中文建立全文索引后，默认使用的是与英文同样的分词规则，即以空格与符号作为词与词之间分隔的界限。
所以，当使用“福尔摩斯”作为搜索词时，无法搜索到“福尔摩斯探案全集”，只能搜索到类似“福尔摩斯（1）”之类
                    经典的错误&标准的零分: 
                    您好，请问我安装好之后使用hue调度shell的时候报错Launcher ERROR, reason: Main class [org.apache.oozie.action.hadoop.ShellMain], exit code [1] 
ERROR is considered as FAILED for SLA是什么原因呀？shell脚本在命令行测试可以运行，感谢！
                Centos7服务器上在线安装mysql5.7
                    Fre朦朦: 
                    安装报错：The GPG keys listed for the “MySQL 5.7 Community Server“ repository are already..
解决方法：以2022年为例
[code=java] rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022
[/code]