博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HBase概念学习(四)Java API之扫描和过滤器
阅读量:4316 次
发布时间:2019-06-06

本文共 1983 字,大约阅读时间需要 6 分钟。

HBase主要的CRUD操作就不多介绍了,无非就是Put,Get。Delete三个类的运用。

本文相当于是阅读HBase权威指南的总结。

一、扫描(Scan)

如今看一下扫描技术,这样的技术类似于关系型数据库的游标(cursor),并利用到了HBase底层顺序存储的特性。

使用扫描的一般步骤是:

1、创建Scan实例2、为Scan实例添加扫描的限制条件3、调用HTable的getScanner()方法获取ResultScanner对象,假设通过HTablePool的方式,则是调用HTablePool的getScanner方法。(注意。HTable类实现了HTableInterface接口,这个接口用于与单个HBase表通信。

) 4、迭代ResultScanner对象中的Result对象訪问扫描结果行。

以下分别解说每个步骤:

(1)创建Scan实例:

构造方法例如以下:

能够创建定义了起始行健和结束行健的Scan对象,返回的包括定义的起始行。可是不包括结束行。

能够创建定义了过滤器的Scan对象,过滤器的内容稍后介绍。

也能够创建空白的Scan对象。

(2)创建好Scan对象之后,还能够添加很多其它的扫描限制条件:

比方能够限制返回数据的列族,也能够限制返回数据的列:

还能够限制返回结果的时间戳,时间范围,甚至限定仅仅返回每一列的一些特定版本号:

除此之外还能够设置过滤器,起始行,结束行等:

注意:上述全部Scan类的方法返回的都是Scan对象,使用的是Builder模式。能够再一行代码中同一时候设置多个限制条件。

(3)以下就能够获取ResultScanner对象:

(4)返回ResultScannner对象之后就能够開始迭代了:

能够直接转换为迭代器迭代,也能够直接用foreach语法迭代:

ResultScanner scanner=table.getScanner(scan);//运行扫描查找     Iterator
res=scanner.iterator( );//返回查询遍历器 或者 for(Result res: scanner){ 訪问Result获取行数据}
注意:扫描操作不会通过一次RPC操作返回全部匹配的行。而是会以行为单位进行返回。

由于一次PRC操作就返回全部匹配数据的话数据量太大。会占用大量的系统资源并花费大量的时间。

1、缓存

依据上面的介绍,迭代ResultScanner的时候每一次显示或者隐式的next()方法的调用都会产生一次单独RPC请求,显然当单元格数据量较小是性能不好。

能够让一次RPC请求获取很多其它的数据。这就是扫描器缓存(Scanner caching)的作用。默认是关闭的。

能够再三个层面上打开扫描器缓存:

(1)表HTable的层面。这样由该表产生的全部扫描器实例的缓存都会生效。

(2)扫描器Scanner的层面,这样仅仅会影响当前的扫描器实例。

(3)整个client层面。须要改动hbase-site.xml配置文件,这样针对全部的Scanner实例都会生效。

设置扫描器缓存的大小就能控制每次RPC请求取回的行数了!

可是扫描器缓存无疑会添加client和server端的内存消耗,用户须要在少量的ROC请求次数和client以及服务端内存消耗之间找到平衡点。

假设扫描器缓存大小设置太大。每次next操作返回的时间就会变长,假设client的数据超过了堆的大小,就会得到一个OutOfMemoryException。

2、批量

另一个问题。有些行数据量很大,可能超过client进程内存的容量。能够用批量(Batch)解决。

缓存是面向行一级的操作,而批量是面向列一级的操作。

批量能够让用户选择每一次ResultScanner实例的next操作要取回多少列。

二、过滤器(Filter)

过滤器提供了很强大的特性来帮助用户提高处理表中数据的效率。用户不仅能够使用HBase中提前定义好的过滤器。还能够实现自己定义的过滤器。

HBase中两种基本的数据读取机制是Get和Scan,都支持加入很多其它的限制条件来降低查询得到的数据量,这些限制条件能够是列族,列,时间戳及版本。

可是他们缺少一些细粒度的筛选功能,比方基于正則表達式的对于行健和值进行筛选,过滤器能够做到。

Get和Scan两个类都支持过滤器。全部过滤器都在服务端生效,这称作谓词下推(predicate push down),这样能够保证被过滤掉的数据不会被传送到client。

过滤器属性和它们之间的兼容性:

很多其它具体介绍放到以后。。。

转载于:https://www.cnblogs.com/jzdwajue/p/7211829.html

你可能感兴趣的文章
Linux系统安装出错后出现grub rescue的修复方法
查看>>
线段树模板整理
查看>>
[教程][6月4日更新]VMware 8.02虚拟机安装MAC lion 10.7.3教程 附送原版提取镜像InstallESD.iso!...
查看>>
[iOS问题归总]iPhone上传项目遇到的问题
查看>>
Python天天美味(总) --转
查看>>
Spring Framework tutorial
查看>>
【VS开发】win7下让程序默认以管理员身份运行
查看>>
【机器学习】Learning to Rank 简介
查看>>
Unity 使用实体类
查看>>
【转】通过文件锁实现,程序开始运行时,先判断文件是否存在,若存在则表明该程序已经在运行了,如果不存在就用open函数创建该文件,程序退出时关闭文件并删除文件...
查看>>
MySQL常见注意事项及优化
查看>>
流畅的Python (Fluent Python) —— 前言
查看>>
Jquery-menu-aim流畅的菜单滑动体验
查看>>
Jquery EasyUI修改行背景的两种方式
查看>>
生成器模式(Builder)C++实现
查看>>
Centos 7.5安装 Redis 5.0.0
查看>>
嵌入式Linux学习笔记(0)基础命令。——Arvin
查看>>
二分图匹配
查看>>
c++ 模板template
查看>>
javascript中的string对象
查看>>