Elasticsearch 是一个分布式的、基于 RESTful API 的搜索和分析引擎,广泛用于大规模的数据存储和快速检索。它最初由 Shay Banon 于 2010 年开发,是开源的,并且是 Elastic Stack(通常称为 ELK Stack)的核心组成部分,另外组成部分是 Logstash、Beats(用于数据收集和处理)和 Kibana(用于数据可视化)。
正向索引 是指为每个文档记录其中出现的所有词汇及其位置。其结构可以理解为:每个文档对应一份词汇表,存储该文档中出现的所有词以及它们的频率、位置等信息。
特点:
按文档进行索引,存储每个文档的详细信息。
优点是容易获取某个文档中所有词汇的信息,适合于需要统计文档中词频、词位置等情况的操作。
缺点是对于查找某个词在哪些文档中出现效率较低,因为需要扫描所有文档。
倒排索引是搜索引擎中最常用的索引结构,用来快速查找包含某个词的所有文档。倒排索引建立了一张从词汇到文档的映射表,即对于每个词,记录它在哪些文档中出现,以及在这些文档中的位置。
特点:
按词汇进行索引,快速查找包含该词的所有文档。
优点是对搜索效率极高,尤其是当我们查询某个词或一组词时,能够快速定位所有相关文档。
缺点是需要额外的空间存储索引表。
docker安装elastic search和kibana
访问kibana,默认端口为5601。Dev Tools 提供了一个类似于控制台的界面,你可以在其中输入并执行 Elasticsearch 的 RESTful API 请求。可通过交互式的方式执行 Elasticsearch 查询、管理索引库和执行其他集群操作。
指定 mappings 和 settings 创建索引库
在创建索引库时指定 mappings(字段类型定义)和 settings(如分片和副本的设置)。
PUT /my_index
{
"settings": {
"number_of_shards": 3, # 分片数
"number_of_replicas": 1 # 副本数
},
"mappings": {
"properties": {
"title": {
"type": "text"
},
"author": {
"type": "keyword"
},
"publish_date": {
"type": "date"
},
"price": {
"type": "float"
}
}
}
}
说明
settings:
mappings:
1.查询索引库的配置信息
GET /my_index
这将返回 my_index 的配置信息,包括分片数、副本数、字段映射等。
DELETE /my_index
这个请求会永久删除名为 my_index 的索引库以及其中的所有数据。操作不可逆,因此删除前请确保不再需要该数据。
3. 修改索引库
在 Elasticsearch 中,索引库的某些设置是可以在创建后修改的,但有些设置(如 number_of_shards)则不能更改。以下是一些常见的可修改操作:
修改索引库的 settings,一些可修改的 settings 包括副本数量、刷新间隔等。
示例:修改副本数
PUT /my_index/_settings
{
"number_of_replicas": 2
}
这个请求会将 my_index 的副本数量从当前值修改为 2。副本数可以随时修改,以增加或减少数据的冗余和查询性能。
修改字段映射 (mappings)
字段映射通常在索引库创建时指定,并且一旦设置,某些字段类型不能直接修改。不过,你可以通过以下方式增加新的字段:
示例:增加新的字段映射
PUT /my_index/_mapping
{
"properties": {
"new_field": {
"type": "text"
}
}
}
这个请求会在 my_index 中增加一个名为 new_field 的新字段。注意,已经存在的字段类型无法修改,你只能添加新的字段。
1. 新增文档
新增文档的DSL语法如下
示例 1:使用 POST 新增文档
POST /my_index/_doc/
{
"title": "Elasticsearch Basics",
"author": "John Doe",
"publish_date": "2024-01-01",
"price": 19.99
}
索引库名:my_index 是索引库的名称。
类型:_doc 是文档类型,在 Elasticsearch 7.x 之后,推荐使用 _doc 作为默认值。
自动生成 ID:不指定文档 ID 时,Elasticsearch 会为该文档自动生成一个唯一的 ID。
示例 2:使用 PUT 新增或更新文档(指定 ID)
PUT /my_index/_doc/1
{
"title": "Elasticsearch Advanced",
"author": "Jane Smith",
"publish_date": "2024-02-01",
"price": 29.99
}
指定文档 ID:文档的 ID 被明确设置为 1。如果该 ID 已存在,则该操作会更新该文档。
2. 查询文档
使用 GET 请求来检索特定的文档或执行搜索查询。
示例 1:根据 ID 查询文档
GET /my_index/_doc/1
示例 2:搜索文档(基于条件)
GET /my_index/_search
{
"query": {
"match": {
"title": "Elasticsearch"
}
}
}
搜索:通过 match 查询,Elasticsearch 会在 title 字段中搜索包含 “Elasticsearch” 关键字的文档。
示例 3:获取所有文档
GET /my_index/_search
{
"query": {
"match_all": {}
}
}
匹配所有文档:match_all 查询会返回索引库中的所有文档。
3. 删除文档
使用 DELETE 请求删除指定的文档。
示例:根据 ID 删除文档
DELETE /my_index/_doc/1
这将删除 my_index 索引库中 ID 为 1 的文档。如果指定的文档不存在,Elasticsearch 会返回一个 404 错误。
4. 总结
1.全量修改,删除旧文档,添加新文档
PUT /my_index/_doc/1
{
"title": "Updated Elasticsearch Basics",
"author": "John Doe",
"publish_date": "2024-01-01",
"price": 19.99
}
2.增量修改,修改指定字段值,使用 POST 和 _update API 进行部分更新。
示例:
POST /my_index/_doc/1/_update
{
"doc": {
"price": 24.99,
"title": "Elasticsearch Basics - Updated"
}
}
这里,doc 对象内的字段会被更新,而文档的其他字段保持不变。例如,price 和 title 字段会被更新为新的值,而其他字段(如 author、publish_date)将保持不变。
3. 通过脚本进行复杂的更新
示例:使用脚本增加字段值
POST /my_index/_doc/1/_update
{
"script": {
"source": "ctx._source.price += params.increment",
"lang": "painless",
"params": {
"increment": 5
}
}
}
分词器(Tokenizer)是文本处理中的一个关键组件,尤其在搜索引擎、文本分析、自然语言处理(NLP)等领域中扮演重要角色。它的主要作用是将文本切分成若干个有意义的词或词组。分词器的使用可以帮助进行词频统计、信息检索、文本分类等任务。
分词器的作用:
常见的分词器类型:
Elasticsearch 是一个基于 Lucene 的分布式搜索引擎,它提供了多种分词器用于处理和分析文本数据。
IK 分词器是 Elasticsearch 中一个流行的中文分词器,适用于处理中文文本。
1. 安装 IK 分词器插件
安装 IK 分词器插件
2. 创建索引时使用 IK 分词器
PUT /my_index
{
"settings": {
"analysis": {
"analyzer": {
"ik_max_word": {
"type": "ik_max_word"
},
"ik_smart": {
"type": "ik_smart"
}
}
}
},
"mappings": {
"properties": {
"content": {
"type": "text",
"analyzer": "ik_max_word"
}
}
}
}
3. 使用 IK 分词器进行文档索引和查询
在创建了索引并配置了 IK 分词器之后,你可以像往常一样索引和查询文档。
POST /my_index/_doc/1
{
"content": "Elasticsearch 是一个分布式搜索引擎"
}
示例:搜索文档
json
复制代码
GET /my_index/_search
{
"query": {
"match": {
"content": "分布式搜索"
}
}
}
4. 测试 IK 分词器
使用 _analyze API 来测试 IK 分词器对文本的分词效果。
POST /my_index/_analyze
{
"analyzer": "ik_max_word",
"text": "Elasticsearch 是一个分布式搜索引擎"
}
5. 扩展词库
6. 停用词库
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igbc.cn 版权所有 湘ICP备2023023988号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务