Hbase基础(一)

技术帖,HBase,BigData 2018-01-10

名称 命令表达式
创建表 create 'table_name, 'family1','family2','familyN'
添加记录 put 'table_name', 'rowkey', 'family:column', 'value'
查看记录 get 'table_name', 'rowkey' 查询单条记录,也是hbase 最常用的命令
查看表中的记录总数 count 'table_name' 这个命令并不快,且目前没有找到更快的方式统计行数
删除记录 delete 'table_name' ,'rowkey','family_name:column' /delete al
'table_name','rowkey' 删除一条记录单列的数据/ 删除整条记录
删除一张表 1、disable 'table_name' 2、drop 'table_name'
查看所有记录 scan "table_name" ,{LIMIT=>10} LIMIT=>10 只返回10条记录,否则将全部展示
查看某个表某个列中所有数据 scan "表名称" , ['列名称:']
更新记录 就是重写一遍进行覆盖

一、查询状态

1.查询服务器状态
hbase(main):011:0> status
1 active master, 1 backup masters, 4 servers, 0 dead, 2.0000 average load

2.查询版本
hbase(main):001:0> version
1.2.0-cdh5.10.0, rUnknown, Fri Jan 20 12:13:18 PST 2017

二、DDL
1.创建一个表
hbase(main):011:0>create 'member','member_id','address','info'   
0 row(s) in 1.2210seconds

2.获得表的描述
hbase(main):012:0>list
TABLE                                                                                                     
member                                                                                                    1 row(s) in 0.0160seconds

hbase(main):006:0>describe 'member'
DESCRIPTION                   ENABLED                                               

 {NAME => 'member', FAMILIES => [{NAME=> 'address', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0',true  VERSIONS => '3', COMPRESSION => 'NONE',TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'fa lse', BLOCKCACHE => 'true'}, {NAME =>'info', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '3', COMPRESSION => 'NONE', TTL=> '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false',  BLOCKCACHE => 'true'}]}                                                                                                 
1 row(s) in 0.0230seconds

3.删除一个列族,alter,disable,enable
我们之前建了3个列族,但是发现member_id这个列族是多余的,因为他就是主键,所以我们要将其删除。

hbase(main):003:0>alter 'member',{NAME=>'member_id',METHOD=>'delete' }
ERROR: Table memberis enabled. Disable it first before altering.
报错,删除列族的时候必须先将表给disable掉。
hbase(main):004:0>disable 'member'                                  
0 row(s) in 2.0390seconds

hbase(main):005:0>alter'member',{NAME=>'member_id',METHOD=>'delete'}
0 row(s) in 0.0560seconds
hbase(main):006:0>describe 'member'
DESCRIPTION                                   ENABLED                                               

 {NAME => 'member', FAMILIES => [{NAME=> 'address', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0',false VERSIONS => '3', COMPRESSION => 'NONE',TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME =>'info', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSI ONS => '3', COMPRESSION => 'NONE', TTL=> '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE =>'true'}]}                                                                                               
1 row(s) in 0.0230seconds

该列族已经删除,我们继续将表enable
hbase(main):008:0> enable 'member'  
0 row(s) in 2.0420seconds

 4.列出所有的表
hbase(main):028:0>list
TABLE                                                                                                     
member                                                                                                    temp_table                                                                                                2 row(s) in 0.0150seconds

5.drop一个表
hbase(main):029:0>disable 'temp_table'
0 row(s) in 2.0590seconds
hbase(main):030:0>drop 'temp_table'
0 row(s) in 1.1070seconds

6.查询表是否存在
hbase(main):021:0>exists 'member'
Table member doesexist                                                                                                 
0 row(s) in 0.1610seconds

7.判断表是否enable
hbase(main):034:0>is_enabled 'member'
true                                                                                                      
0 row(s) in 0.0110seconds

8.判断表是否disable
hbase(main):032:0>is_disabled 'member'
false                                                                                                    
0 row(s) in 0.0110seconds

三、DML
1.插入几条记录
put'member','scutshuxue','info:age','24'
put'member','scutshuxue','info:birthday','1987-06-17'
put'member','scutshuxue','info:company','alibaba'
put'member','scutshuxue','address:contry','china'
put'member','scutshuxue','address:province','zhejiang'
put'member','scutshuxue','address:city','hangzhou'
put'member','xiaofeng','info:birthday','1987-4-17'
put'member','xiaofeng','info:favorite','movie'
put'member','xiaofeng','info:company','alibaba'
put'member','xiaofeng','address:contry','china'
put'member','xiaofeng','address:province','guangdong'
put'member','xiaofeng','address:city','jieyang'
put'member','xiaofeng','address:town','xianqiao'

2.获取一条数据
获取一个id的所有数据
hbase(main):001:0>get 'member','scutshuxue'
COLUMN CELL address:city timestamp=1321586240244, value=hangzhou address:contry timestamp=1321586239126, value=china address:province timestamp=1321586239197, value=zhejiang info:age timestamp=1321586238965, value=24 info:birthday timestamp=1321586239015, value=1987-06-17 info:company timestamp=1321586239071, value=alibaba 6 row(s) in 0.4720seconds

获取一个id,一个列族的所有数据
hbase(main):002:0>get 'member','scutshuxue','info'
COLUMN CELL info:age timestamp=1321586238965, value=24 info:birthday timestamp=1321586239015, value=1987-06-17 info:company timestamp=1321586239071, value=alibaba 3 row(s) in 0.0210seconds

获取一个id,一个列族中一个列的所有数据
hbase(main):002:0>get 'member','scutshuxue','info:age'
COLUMN CELL info:age timestamp=1321586238965, value=24 1 row(s) in 0.0320seconds

6.更新一条记录
将scutshuxue的年龄改成99
hbase(main):004:0>put 'member','scutshuxue','info:age' ,'99'
0 row(s) in 0.0210seconds
hbase(main):005:0>get 'member','scutshuxue','info:age'
COLUMN CELL info:age timestamp=1321586571843, value=99 1 row(s) in 0.0180seconds

3.通过timestamp来获取两个版本的数据
hbase(main):010:0>get 'member','scutshuxue',{COLUMN=>'info:age',TIMESTAMP=>1321586238965
COLUMN CELL info:age timestamp=1321586238965, value=24 1 row(s) in 0.0140seconds

hbase(main):011:0>get 'member','scutshuxue',{COLUMN=>'info:age',TIMESTAMP=>1321586571843}
COLUMN CELL info:age timestamp=1321586571843, value=99 1 row(s) in 0.0180seconds

4.全表扫描:
hbase(main):013:0>scan 'member'
ROW COLUMN+CELL scutshuxue column=address:city, timestamp=1321586240244, value=hangzhou scutshuxue column=address:contry, timestamp=1321586239126, value=china scutshuxue column=address:province, timestamp=1321586239197, value=zhejiang scutshuxue column=info:age,timestamp=1321586571843, value=99 scutshuxue column=info:birthday, timestamp=1321586239015, value=1987-06-17 scutshuxue column=info:company, timestamp=1321586239071, value=alibaba temp column=info:age, timestamp=1321589609775, value=59 xiaofeng column=address:city, timestamp=1321586248400, value=jieyang xiaofeng column=address:contry, timestamp=1321586248316, value=china xiaofeng column=address:province, timestamp=1321586248355, value=guangdong xiaofeng column=address:town, timestamp=1321586249564, value=xianqiao xiaofeng column=info:birthday, timestamp=1321586248202, value=1987-4-17 xiaofeng column=info:company, timestamp=1321586248277, value=alibaba xiaofeng column=info:favorite, timestamp=1321586248241, value=movie 3 row(s) in 0.0570seconds

5.删除id为temp的值的‘info:age’字段
hbase(main):016:0>delete 'member','temp','info:age'
0 row(s) in 0.0150seconds

hbase(main):018:0>get 'member','temp'
COLUMN CELL
0 row(s) in 0.0150seconds

6.删除整行
hbase(main):001:0>deleteall 'member','xiaofeng'
0 row(s) in 0.3990seconds

7.查询表中有多少行:
hbase(main):019:0>count 'member'
2 row(s) in 0.0160seconds

8.给‘xiaofeng’这个id增加'info:age'字段,并使用counter实现递增
hbase(main):057:0*incr 'member','xiaofeng','info:age'
COUNTER VALUE = 1

hbase(main):058:0>get 'member','xiaofeng','info:age'
COLUMN CELL info:age timestamp=1321590997648, value=\x00\x00\x00\x00\x00\x00\x00\x01
1 row(s) in 0.0140seconds

hbase(main):059:0>incr 'member','xiaofeng','info:age'
COUNTER VALUE = 2

hbase(main):060:0>get 'member','xiaofeng','info:age'
COLUMN CELL info:age timestamp=1321591025110, value=\x00\x00\x00\x00\x00\x00\x00\x02
1 row(s) in 0.0160seconds

获取当前count的值
hbase(main):069:0>get_counter 'member','xiaofeng','info:age'
COUNTER VALUE = 2

9.将整张表清空:
hbase(main):035:0>truncate 'member'
Truncating 'member'table (it may take a while):

  • Disabling table...
  • Dropping table...
  • Creating table...
    0 row(s) in 4.3430seconds
    可以看出,hbase是先将掉disable掉,然后drop掉后重建表来实现truncate的功能的。

*四、Create命令参数
利用上面基础命令可以完成基本的hbase 操作,下面几个shell 命令在后续的hbase 操作中可以起到很到的作用,且主要体现在建表的过程中,看下面几个create 属性

1、BLOOMFILTER  默认是NONE 是否使用布隆过滤 使用何种方式
     布隆过滤可以每列族单独启用。使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 对列族单独启用布隆。 Default = NONE 没有布隆过滤。对 ROW,行键的哈希在每次插入行时将被添加到布隆。对 ROWCOL,行键 + 列族 + 列族修饰的哈希将在每次插入行时添加到布隆
   使用方法: create 'table',{BLOOMFILTER =>'ROW'} 
   启用布隆过滤可以节省必须读磁盘过程,可以有助于改进读取延迟 

2、VERSIONS 默认是3 这个参数的意思是数据保留三个 版本,如果我们认为我们的数据没有这么大的必要保留这么多,随时都在更新,而老版本的数据对我们毫无价值,那将此参数设为1 能节约2/3的空间
     使用方法: create 'table',{VERSIONS=>'2'}

3、COMPRESSION 默认值是NONE 即不使用压缩
     这个参数意思是该列族是否采用压缩,采用什么压缩算法
     使用方法: create 'table',{NAME=>'info',COMPRESSION=>'SNAPPY'} 
     我建议采用SNAPPY压缩算法,个压缩算法的比较网上比较多,我从网上摘抄一个表格作为参考,具体的snappy 的安装后续会以单独章节进行描述。
     这个表是Google几年前发布的一组测试数据,实际测试Snappy 和下表所列相差无几。
    HBase中,在Snappy发布之前(Google 2011年对外发布Snappy),采用的LZO算法,目标是达到尽可能快的压缩和解压速度,同时减少对CPU的消耗;
    在Snappy发布之后,建议采用Snappy算法(参考《HBase: The Definitive Guide》),具体可以根据实际情况对LZO和Snappy做过更详细的对比测试后再做选择。

Algorithm % remaining Encoding Decoding
GZIP 13.4% 21 MB/s 118 MB/s
LZO 20.5% 135 MB/s 410 MB/s
Zippy/Snappy 22.2% 172 MB/s 409 MB/s

如果建表之初没有 压缩,后来想要加入压缩算法,怎么办 hbase 有另外的一个命令alter

4、alter
使用方法:
如 修改压缩算法
disable 'table'
alter 'table',{NAME=>'info',COMPRESSION=>'snappy'}
enable 'table'
删除列族
disable 'table'
alter 'table',{NAME=>'info',METHOD=>'delete'}
enable 'table'
但是这样修改之后发现表数据还是那么大,并没有发生多大变化。怎么办
major_compact 'table' 命令之后 才会做实际的操作。

5、TTL 默认是 2147483647 即:Integer.MAX_VALUE 值 大概是68年
这个参数是说明该列族数据的 存活时间 也就是数据的生命周期 单位是s 默写文章写的单位是ms 是错误的。
这个参数可以根据 具体的需求 对数据设定 存活时间,超过存过时间的数据将在表中不在显示,待下次major compact的时候再彻底删除数据
为什么在下次major compact的时候删除数据,后面会具体介绍到。
注意的是TTL设定之后 MIN_VERSIONS=>'0' 这样设置之后,TTL时间戳过期后,将全部彻底删除该family 下所有的数据,如果MIN_VERSIONS 不等于0 那将保留最新
的MIN_VERSIONS个版本的数据,其它的全部删除,比如MIN_VERSIONS=>'1' 届时将保留一个最新版本的数据,其它版本的数据将不再保存。

6、describe 'table' 这个命令查看了create table 的各项参数 或者是默认值。

7、disable_all 'toplist.*' disable_all 支持正则表达式,并列出当前匹配的表的如下:
toplist_a_total_1001
toplist_a_total_1002
toplist_a_total_1008
toplist_a_total_1009
toplist_a_total_1019
toplist_a_total_1035
...
Disable the above 25 tables (y/n)? 并给出确认提示
8、drop_all 这个命令和disable_all的使用方式是一样的

9、hbase 表预分区 也就是手动分区
默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。
使用方法:create 't1', 'f1', {NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}
也可以使用 api的方式
hbase org.apache.hadoop.hbase.util.RegionSplitter test_table HexStringSplit -c 10 -f info
参数很容易看懂 test_table 是表名 HexStringSplit 是split 方式 -c 是分10个region -f 是family 这样就可以将表预先分为10个区,减少数据达到storefile 大小的时候自动分区的时间消耗,并且还有以一个优势,就是合理设计rowkey 能让各个region 的并发请求 平均分配(趋于均匀) 使IO 效率达到最高,但是预分区需要将filesize 设置一个较大的值,设置哪个参数呢 hbase.hregion.max.filesize 这个值默认是10G 也就是说单个region 默认大小是10G
这个值发生从0.90 到0.92到0.94.3 从 256M--1G--10G 这个根据自己的需求将这个值修改。但是如果MapReduce Input类型为TableInputFormat 使用hbase作为输入的时候,就要注意了,每个region一个map,如果数据小于10G 那只会启用一个map 造成很大的资源浪费,这时候可以考虑适当调小 该参数的值,或者采用预分配region 的方式,并将hbase.hregion.max.filesize 设为一个相对比较大的值,不容易达到的值比如1000G,检测如果达到这个值,再手动分配region。


本文由 BF 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

还不快抢沙发

添加新评论

bst g22 jinniu lilai opebet orange88 vinbet xbet yuebo zunlong shijiebei bet007 hg0088 ju111 letiantang m88 mayaba qg777 qianyiguoji sbf777 tengbohui tlc ule weilianxier waiweitouzhu xingfayule xinhaotiandi yinheyule youfayule zhongying 2018shijiebei w88 18luck 188bet beplay manbet 12bet 95zz shenbo weide1946 ca88 88bifa aomenxinpujing betway bodog bt365 bwin tongbao vwin weinisiren 88jt fenghuangyule hongyunguoji 918botiantang huanyayule jianada28 jixiangfang libo long8 hongzuyishi zuqiutouzhu