一、搜索引擎篇-揭开es神秘的面纱

一、es是什么?

elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎,它的底层是开源库lucene。

二、lucene是什么?

最受欢迎的java开源全文搜索引擎开发工具包。 提供了完整的查询引擎和索引引擎, 部分文本分词引擎。

三、es中shard是什么?

一个index可能存储大量的数据,以至于一台机器放不下,即使能承载,用单机查询全量数据,也相当耗时。为了解决这个问题,es将index中的数据分成多份,每一份叫一个shard。

四、es中replica是什么?

replica即为shard的备份, 每个shard可以有多个replica, 其中一个是primary shard, 剩余的是replica shard。replica除可以起到容错的作用外, 还可以提高查询并发度。

五、lucene在es中的作用?

es的每个副本实际上是一个lucene index实例。

六、es集群结构:

索引的六个分片被均匀分配到集群的三个节点中

1、名词解释:

node代表机器节点

P代表primary shard 主分片

R代表replica shard 副分片

2、分片分配规则:

2.1、让节点间均匀存储。

2.2、保证不把主分片和副分片分配到同一个节点,避免单个节点故障引起数据丢失。

3、集群容灾:

分布式系统难免出现故障,当节点异常时,es会自动处理异常节点。

3.1、主节点异常:

集群会重新选举主节点

3.2、主分片异常:

将副分片提升为主分片

七、为什么需要搜索引擎?

数据库适合结构化数据的精确查询,而不适合半结构化、 非结构化数据的模糊查询及灵活搜索(特别是数据量大时),无法提供想要的实时性。

结构化数据:用表、字段表示的数据

半结构化数据: xml、html

非结构化数据: 文本、 文档、 图片、 音频、 视频等

八、搜索引擎如何做到?

1、为什么称为倒排索引?

原名Inverted index, 失败地翻译成了倒排索引, 正确翻译为: 反向索引

2、索引可以合并在一起吗?

3、反向索引的记录数会不会很大?

《牛津词典》 收词41万 《现代汉语规范词典》 收录字数13000多个, 收录词数72000多个

结论: 量不会很大, 100万以内; 通过这个索引找文章会很快。

4、如何建立这样一个索引?

5、java开源中文分词器有哪些?

常用中文分词器有: IKAnalyzer mmseg4j

6、分词时能不能统计出词的出现次数、 位置?

九、搜索

1、如何做才能快速查询到与“火锅” 有关的新闻?

使用分词器对数据进行分词, 建立反向索引

2、有了反向索引了, 如何进行搜索?

3、合并后列表该如何排序?

我们希望最相关的排在最前面

4、相关性如何度量?

人可以通过读内容判定相关性,机器不懂人言,得需要一套能评估相关性的模型

5、如何根据次数建立一个相关性评估模型?

规则1:统计出现次数,根据次数从高到底排序

规则2:加入权重,标题权重10,内容权重1,计算权重得分,从高到底排序

经验分享 程序员 微信小程序 职场和发展