博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
order by/sort by/distribute by /cluster by 的区分
阅读量:4973 次
发布时间:2019-06-12

本文共 650 字,大约阅读时间需要 2 分钟。

主要说说这3者的区分和场景:

1.order by:这是日常使用最多的,因为是最终的排序,所以是全局的,所以最后只会有1个reduce(set mapred.reduce.tasks=n无效)完成。假如sql的执行结果的数据量很大的话,这里就会比较坑。

2.sort by:sortby不是全局排序,数据在reducer前就完成排序。sortby只会保证每个reducer的输出是有序的,sortby不受hive.mapred.mode属性的影响。我们可以set mapred.reduce.tasks=n来指定reduce的个数,最后在执行order by 进行全局的排序。

3. distribute by :distribute by 是控制map端如何拆分数据给reduce端的。hive会根据by 的列,对应reduce的个人进行分发,默认是hash算法。

4. cluster by :等价于 distribute by columns sort by columns,但是只能是倒叙排序

  notes: distribute by 和sort by的使用场景:

     1. map输出的文件大小不均匀

     2. reduce输出的文件大小不均

     3. 小文件过多

     4. 文件太大。 

  

set mapred.reduce.tasks=n

转载于:https://www.cnblogs.com/chengdu-jackwu/p/10172940.html

你可能感兴趣的文章
2016-2017-2点集拓扑作业[本科生上课时]讲解视频
查看>>
【MemSQL Start[c]UP 3.0 - Round 1 C】 Pie Rules
查看>>
Ognl中“%”、“#”、“$”详解
查看>>
我对应用软件——美团的看法
查看>>
执行了的程序,才是你的程序.
查看>>
struts2.x + Tiles2.x读取多个xml 配置文件
查看>>
表单校验之datatype
查看>>
python第六篇文件处理类型
查看>>
ubuntu16系统磁盘空间/dev/vda1占用满的问题
查看>>
grid网格布局
查看>>
JSP常用标签
查看>>
九涯的第一次
查看>>
处理器管理与进程调度
查看>>
向量非零元素个数_向量范数详解+代码实现
查看>>
java if 用法详解_Java编程中的条件判断之if语句的用法详解
查看>>
matlab sin函数 fft,matlab的fft函数的使用教程
查看>>
mysql adddate()函数
查看>>
mysql sin() 函数
查看>>
单片机复位电路
查看>>
php json_decode失败,返回null
查看>>