标签 partition 下的文章

Kafka 介绍与实践


一.Kafka基础

1.1 实践内容

本文将介绍 Kafka 及实现原理,然后完整搭建,demo演示。

1.2 项目来源

参考资料: http://kafka.apache.org/documentation.html

1.3. 实践知识点

生产者/消费者模型
单机/集群的区别
设计原理

1.4 实验环境

Hadoop 2.6.1
kafka_2.10-0.8.1.1
Xfce 终端

1.5 适合人群

本文属于中等难度级别,适合具有 hadoop 基础的用户,如果对分布式文件系统了解能够更好的上手。


Linux学习笔记(一)


(此学习笔记整理于《鸟哥的Linux私房菜基础学习篇》)

第0章 计算机概论


  • 计算机的定义为:“接受使用者输入指令与数据,经由中央处理器的数学与逻辑单元运算

    ​处理后,以产生或储存成有用的信息”;

  • 电脑的五大单元包括:输入单元、输出单元、控制单元、算数逻辑单元、存储单元五大

    ​部分。其中CPU占有控制、算术逻辑单元,存储单元又包含内存与辅助内存;

  • 数据会流进/流出内存是CPU所发布的控制命令,而CPU实际要处理的数据则完全来自于

    ​内存;

  • CPU依设计理念主要分为:精简指令集(RISC)与复杂指令集(CISC)系统;

  • 关于CPU的频率部分:外频指的是CPU与外部元件进行数据传输时的速度,倍频则是

    ​CPU内部用来加速工作性能的一个倍数, 两者相乘才是CPU的频率速度。


Hadoop排序工具用法小结


本文转载自Silhouette的文章,原文地址:http://www.dreamingfish123.info/?p=1102

Hadoop排序工具用法小结
发表于 2014 年 8 月 25 日 由 fish
Hadoop用于对key的排序和分桶的设置选项比较多和复杂,目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。

基本概念:

Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而partitioner就是分桶器,一般用平台默认的hash分桶也可以自己指定。
Key:是需要排序的字段,相同分桶&&相同key的行排序到一起。

下面以一个简单的文本作为例子,通过搭配不同的参数跑出真实作业的结果来演示这些参数的使用方法。
假设map的输出是这样以点号分隔的若干行:

d.1.5.23
e.9.4.5
e.5.9.22
e.5.1.45
e.5.1.23
a.7.2.6
f.8.3.3
我们知道,在streaming模式默认hadoop会把map输出的一行中遇到的第一个设定的字段分隔符前面的部分作为key,后面的作为 value,如果输出的一行中没有指定的字段分隔符,则整行作为key,value被设置为空字符串。 那么对于上面的输出,如果想用map输出的前2个字段作为key,后面字段作为value,并且不使用hadoop默认的“\t”字段分隔符,而是根据该 文本特点使用“.”来分割,需要如何设置呢


bst g22 jinniu lilai opebet orange88 vinbet xbet yuebo zunlong shijiebei bet007 hg0088 ju111 letiantang m88 mayaba qg777 qianyiguoji sbf777 tengbohui tlc ule weilianxier waiweitouzhu xingfayule xinhaotiandi yinheyule youfayule zhongying 2018shijiebei w88 18luck 188bet beplay manbet 12bet 95zz shenbo weide1946 ca88 88bifa aomenxinpujing betway bodog bt365 bwin tongbao vwin weinisiren 88jt fenghuangyule hongyunguoji 918botiantang huanyayule jianada28 jixiangfang libo long8 hongzuyishi zuqiutouzhu