博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
ES查看segment大小
阅读量:6695 次
发布时间:2019-06-25

本文共 936 字,大约阅读时间需要 3 分钟。

摘自:http://www.aboutyun.com/thread-17078-1-1.html

 

Segment Memory

Segment不是file吗?segment memory又是什么?前面提到过,一个segment是一个完备的lucene倒排索引,而倒排索引是通过词典 (Term Dictionary)到文档列表(Postings List)的映射关系,快速做查询的。 由于词典的size会很大,全部装载到heap里不现实,因此Lucene为词典做了一层前缀索引(Term Index),这个索引在Lucene4.0以后采用的数据结构是FST (Finite State Transducer)。 这种数据结构占用空间很小,Lucene打开索引的时候将其全量装载到内存中,加快磁盘上词典查询速度的同时减少随机磁盘访问次数。
下面是词典索引和词典主存储之间的一个对应关系图:
<ignore_js_op> 
说了这么多,要传达的一个意思就是,ES的data node存储数据并非只是耗费磁盘空间的,为了加速数据的访问,每个segment都有会一些索引数据驻留在heap里。因此segment越多,瓜分掉的heap也越多,并且这部分heap是无法被GC掉的! 理解这点对于监控和管理集群容量很重要,当一个node的segment memory占用过多的时候,就需要考虑删除、归档数据,或者扩容了。
怎么知道segment memory占用情况呢?  CAT API可以给出答案。
1.  查看一个索引所有segment的memory占用情况:
<ignore_js_op> 
2.  查看一个node上所有segment占用的memory总和:
<ignore_js_op> 
那么有哪些途径减少data node上的segment memory占用呢? 总结起来有三种方法:

    •     删除不用的索引。
    •     关闭索引 (文件仍然存在于磁盘,只是释放掉内存)。需要的时候可以重新打开。
    •     定期对不再更新的索引做optimize (ES2.0以后更改为force merge api)。这Optimze的实质是对segment file强制做合并,可以节省大量的segment memory。

转载地址:http://nkvoo.baihongyu.com/

你可能感兴趣的文章
Redis架构设计
查看>>
Programming Ability Test学习 1026. 程序运行时间(15)
查看>>
implicit和explicit的基本使用
查看>>
我们一起学习WCF 第六篇文件传输
查看>>
nio编程
查看>>
【竞赛笔记】飞思卡尔智能车竞赛
查看>>
codevs 1291 火车线路
查看>>
2017 国庆湖南 Day3
查看>>
位置参数,默认参数,非关键字可变长参数,关键字可变长参数
查看>>
Linux下vi命令
查看>>
btrfs文件系统管理与应用
查看>>
SpringMVC视图解析器概述
查看>>
SQL Server 自动化运维系列 - 监控磁盘剩余空间及SQL Server错误日志(Power Shell)...
查看>>
English Phonetic Spelling Alphabet
查看>>
linux下访问ftp服务器和文件传输
查看>>
极力推荐python初学者使用wingIDE
查看>>
[NOIP2014] 普及组
查看>>
轻松掌握Ajax.net系列教程十三:使用HoverMenuExtender
查看>>
基础学习笔记之opencv(12):改变图像对比度和亮度
查看>>
将实体类、匿名对象转换为SqlParameter列表
查看>>