分布式搜索elasticsearch的5种分片查询优先级

wbj0110

浏览: 1557561 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

ElasticSearch

分布式搜索elasticsearch的5种分片查询优先级 ElasticSearch

elasticsearch可以使用preference参数来指定分片查询的优先级，使用时就是在请求url上加上preference参数，如：http://ip:host/index/_search?preference=_primary

java的调用接口翻译为：client.prepareSearch("index").setPreference("_primary")。

默认情况下es有5种查询优先级：

_primary: 指查询只在主分片中查询

_primary_first: 指查询会先在主分片中查询，如果主分片找不到（挂了），就会在副本中查询。

_local: 指查询操作会优先在本地节点有的分片中查询，没有的话再在其它节点查询。

_only_node:指在指定id的节点里面进行查询，如果该节点只有要查询索引的部分分片，就只在这部分分片中查找，所以查询结果可能不完整。如_only_node:123在节点id为123的节点中查询。

Custom (string) value:用户自定义值，指在参数cluster.routing.allocation.awareness.attributes指定的值，如这个值设置为了zone，那么preference=zone的话就在awareness.attributes=zone*这样的节点搜索，如zone1、zone2。关于这个值作用可以参考下面文章。

虽然es有提供这5种优先级，但感觉还是不能满足我的需求，我是想能指定在某一个或多个节点中查询，比如node1和node2里面的分片能组成一个完整的索引，那我可以只在node1和node2中搜索就行了。看来只能改源码解决，改源码也非常简单。

首先找到org.elasticsearch.cluster.routing.operation.plain.PlainOperationRouting这个类，es搜索时获取分片信息是通过这个类的。它的preferenceActiveShardIterator()方法就是根据条件来找出响应的分片。看源码可知其主要是根据preference这个参数来决定取出的分片的。如果没有指定该参数，就随机抽取分片进行搜索。如果参数以_shards开头，则表示只查询指定的分片。注意，这个功能官网的文档中没有写到。

然后下面就是判断我上面说的5种优先级情况。我们现在要加个多节点分片查询的功能，仿照单个节点分片查询（指_only_node）就行了，在

if (preference.startsWith("_only_node:")) {
    return indexShard.onlyNodeActiveShardsIt(preference.substring("_only_node:".length()));
}

后面加上

if (preference.startsWith("_only_nodes:"))  {
    return indexShard.onlyNodesActiveShardsIt(preference.substring("_only_nodes:".length()));
}

onlyNodesActiveShardsIt这个方法在org.elasticsearch.cluster.routing.IndexShardRoutingTable中是没有的，要自己写。加上

/**
     * Prefers execution on the provided nodes if applicable.
     */
    public ShardIterator onlyNodesActiveShardsIt(String nodeIds) {
        String[] ids = nodeIds.split(",");
        ArrayList<ShardRouting> ordered = new ArrayList<ShardRouting>(shards.size());
        // fill it in a randomized fashion
        for (int i = 0; i < shards.size(); i++) {
            ShardRouting shardRouting = shards.get(i);
            for(String nodeId:ids){
              if (nodeId.equals(shardRouting.currentNodeId())) {
                ordered.add(shardRouting);
              }
            }
        }
        return new PlainShardIterator(shardId, ordered);
    }

重新编译源码就行了。查询时加上?preference=_only_nodes:node1id,node2id 就可以指定在node1和node2中搜索

分享到：

GitHub使用elasticsearch遇到的一些问题及 ... | 分布式搜索elasticsearch中文分词集成

2013-10-20 11:07
浏览 995
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

pre_o_1csdn63m9a1bs0e1rr51niuu33e.a: pre_o_1csdn63m9a1bs0e1rr51niuu33e.a

matlab建立计算力学课程的笔记和文件.zip: matlab建立计算力学课程的笔记和文件.zip

FT-Prog-v3.12.38.643-FTD USB 工作模式设定及eprom读写: FT_Prog_v3.12.38.643--FTD USB 工作模式设定及eprom读写

matlab基于RRT和人工势场法混合算法的路径规划.zip: matlab基于RRT和人工势场法混合算法的路径规划.zip

matlab基于matlab的两步定位软件定义接收机的开源GNSS直接位置估计插件模块.zip: matlab基于matlab的两步定位软件定义接收机的开源GNSS直接位置估计插件模块.zip

office 2016三和一精简版: office 2016三和一精简版

Scrapy-1.0.2-py2-none-any.whl: 文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库，如NumPy、Pandas和Requests，极大地丰富了Python的应用领域，从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径，而且为经验丰富的开发者提供了强大的工具，以高效率、高质量地完成复杂任务。例如，Matplotlib和Seaborn库在数据可视化领域内非常受欢迎，它们提供了广泛的工具和技术，可以创建高度定制化的图表和图形，帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

麦肯锡咨询顾问必备宝典-时间管理.ppt: 麦肯锡咨询顾问必备宝典-时间管理.ppt

setuptools-0.6c10-py2.4.egg: 文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库，如NumPy、Pandas和Requests，极大地丰富了Python的应用领域，从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径，而且为经验丰富的开发者提供了强大的工具，以高效率、高质量地完成复杂任务。例如，Matplotlib和Seaborn库在数据可视化领域内非常受欢迎，它们提供了广泛的工具和技术，可以创建高度定制化的图表和图形，帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

麦肯锡顾问的黄金思考方法.pptx: 麦肯锡顾问的黄金思考方法.pptx

91fdd461elb59a4ce8dfcfc46bc283a7.msi: 91fdd461elb59a4ce8dfcfc46bc283a7.msi

ansys maxwell: ansys maxwell

5-5.py: 5-5

xx广告促销计划流程实施手册.ppt: xx广告促销计划流程实施手册.ppt

仿小米商城微信小程序源码+项目说明.zip: 仿小米商城微信小程序源码+项目说明.zip

pytest-4.6.0.tar.gz: 文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库，如NumPy、Pandas和Requests，极大地丰富了Python的应用领域，从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径，而且为经验丰富的开发者提供了强大的工具，以高效率、高质量地完成复杂任务。例如，Matplotlib和Seaborn库在数据可视化领域内非常受欢迎，它们提供了广泛的工具和技术，可以创建高度定制化的图表和图形，帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

Scrapy-2.10.1.tar.gz: 文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库，如NumPy、Pandas和Requests，极大地丰富了Python的应用领域，从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径，而且为经验丰富的开发者提供了强大的工具，以高效率、高质量地完成复杂任务。例如，Matplotlib和Seaborn库在数据可视化领域内非常受欢迎，它们提供了广泛的工具和技术，可以创建高度定制化的图表和图形，帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

麦肯锡xx客户满意服务.ppt: 麦肯锡xx客户满意服务.ppt

网课专注度监测预警系统基于yolov5目标检测的网课专注度检测系统源码+模型+pyqt5界面.zip: 网课专注度监测预警系统基于yolov5目标检测的网课专注度检测系统源码+模型+pyqt5界面.zip

基于python+Scrapy的农业数据爬虫设计与实现: 【作品名称】：基于python+Scrapy的农业数据爬虫设计与实现【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【项目介绍】：基于Scrapy的农业数据爬虫设计与实现 . ├── Crops # web服务 │ ├── app.py │ ├── static # 静态文件 │ │ ├── css │ │ └── js │ └── templates # 静态页面 │ ├── corn.html │ ├── corns.html │ ├── index.html │ ├── porcor.html │ ├── pork.html │ └── porks.html ├── README.md └── spider # 爬虫及数据处理 ├── integration # 数据汇总 │ └── corn.py └── tutorial # 爬虫 ├── scrap

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论