MapReduce工作流程一-【官方】百战程序员_IT在线教育培训机构_体系课程在线学习平台

目录

百战程序员，全站22050+开发课程+文档，学习精选优质好课快人一步！观看视频快捷键ALT+N

Python全系列教程

3567个小节阅读：5931.7k

赞

收藏

全部开发者教程

目录

143_申请评分卡3031

29_Mysql

数据结构与算法

01_Python入门

02_编程的基本概念

05_控制语句

06_函数用法和底层分析

07_面向对象基础

08_面向对象进阶

09_异常机制

12_GUI编程（选学）

13_项目开发实例（选学）

14_pygame模块操作

16_并发编程（线程、进程、协程）

17_网络编程

21_正则表达式

22_Python新特性汇总

23_源码深度剖析和内存管理

25_统计学基础

26_Django初级

28_tornado项目

31_Hadoop 离线体系：Hive

32_Hadoop 分布式文件系统HDFS

34_电商大数据

35_Git的使用

36_docker容器扩展

37_Redis

38_深度学习-认识深度学习_PyTorch入门

39_神经网络基础

40_卷积神经网络（CNN）

41_迁移学习

43_CNN目标检测

42_生成对抗网络_GAN

44_循环神经网络与NLP

46_scrapy框架使用

47_爬虫基础

49_移动端爬虫

50_爬虫反反爬

51_办公自动化

52_算法与数据结构

53_数据可视化PowerBI

56_Flask视图高级

58_机器学习预备知识

59_KNN与交叉检验

61_线性回归与梯度下降法

62_逻辑回归与Softmax回归

63_多项式回归、过拟合、模型正则化

64_分类算法的评价

65_KMeans聚类与降维算法

67_SVM与朴素贝叶斯算法

68_Kaggle竞赛

69_SPSS

70_HTML5

71_二手车价格预测

72_旅游景点票价预测

73_工资分类预测

74_广告点击转化率预测

75_文本分类-自然语言处理

76_音乐推荐系统

77_银行客户流失分析

78_申请评分卡

80_JavaScript语言

81_基础知识

82_描述统计

83_抽样分布

84_参数估计

85_假设检验

86_方差分析

87_协方差与相关系数

88_非参数方法

89_线性回归

93_Django项目阶段-电商项目

96_Linux操作系统概述与安装

97_Linux常用命令

98_python操作mysql

98_Linux用户权限和软件安装与管理

99_Django初级

100_Django中级

101_Django高级

102_SPSS

103_智能推荐系统

104_关联规则分析与Apriori算法

105_Gensim与LDA主题模型

106_Git

107_Flask百战电商后台项目

111_数据获取函数

109_量化交易概论

110_量化交易平台

112_量化选股

113_量化择时

114_量化策略的机器学习算法运用

115_量化交易策略的回测

116_量化交易策略的因子

117_量化交易策略实战

118_电商大数据购买行为分析项目

119_数据分析_数学知识

120_Anaconda环境搭建

121_Linux 环境编程基础

122_项目-音乐播放器

127_Pandas基本使用3015

128_Python开发环境搭建

129_内存管理

130_Django项目3018

131_docker容器扩展

133_数据分析案例_案例2_电影数据分析3021

134_数据分析案例_案例3_机场延迟分析

135_数据分析案例_案例1_足球数据分析

136_二手车价格预测

137_旅游景点票价预测

138_工资分类预测

139_广告点击转化率预测

140_文本分类-自然语言处理

141_音乐推荐系统

142_银行客户流失分析

鸿蒙应用开发

C语言快速入门

JAVA全系列教程

面向对象的程序设计语言

Python全系列教程

Python3.x版本，未来主流的版本

人工智能教程

顺势而为，AI创新未来

大厂算法教程

算法，程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务教程

目前业界流行的框架组合

web前端全系列教程

通向WEB技术世界的钥匙

大数据全系列教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(508)

赞(0)

1.3 MapReduce工作流程

官方给的定义：系统执行排序、将map输出作为输入传给reducer的过程称为Shuffle。（看完是不是一脸懵逼）通俗来讲，就是从map产生输出开始到reduce消化输入的整个过程称为Shuffle。如下图用黑线框出的部分：

圆形缓冲区介绍：

每一个map任务都会有一个圆形缓冲区。默认大小100MB（io.sort.mb属性）阈值0.8也就是80MB(mapreduce.map.sort.spill.percent属性指定） ,

一旦达到阈值一个后台线程开始把内容写到(spill)磁盘的指定目录mapred.local.dir下的新建的一个溢出写文件。写入磁盘前先partition、sort、[combiner]。一个map task任务可能产生N个磁盘文件。map task运算完之后，产生了N个文件，然后将这些文件merge合成一个文件。如果N=2，合成的新文件写入磁盘前只经过patition（分区）和sort（排序）过程，不会执行combiner合并（无论是否指定combiner类），如下图所示：

如果N>=3，合成的新文件写入磁盘前经过patition（分区）、sort（排序）过和combiner合并（前提是指定了combiner类），如下图所示：

思考：为什么只有当N>=3时，合成文件才会执行combiner呢？

这是因为如果N<3时，执行combiner虽然减少了文件的大小，但是同时产生了一定的系统开销。由于减少的文件大小不大，权衡利弊后，确定N<2时不在执行combiner操作。当该map task全部执行完之后，对应的reduce task将会拷贝对应分区的数据（该过程称为fetch），如下图所示：

其它的map task任务完成后，对应的reduce task也同样执行fetch操作，如下图所示：

每个map任务的完成时间可能不同，因此只要有一个任务完成，reduce任务就开始复制其输出。该阶段被称为reduce的复制阶段。reduce任务有少量复制线程，因此能够并行取得map输出。默认值是5个线程，但这个默认值可以通过设置mapred.reduce.parallel.copies属性改变。

复制完所有map输出后，reduce任务进入合并阶段，该阶段将合并map输出，并维持其顺序排序（相当于执行了sort），如果指定了combiner，在写入磁盘前还会执行combiner操作。

那么具体是如何合并的呢？合并因子默认是10，可以通过io.sort.factor属性设置。合并过程是循环进行了，可能叫经过多趟合并。目标是合并最小数量的文件以便满足最后一趟的合并系数。假设有40个文件，我们不会在四趟中每趟合并10个文件从而得到4个文件。相反，第一趟只合并4个文件，随后的三趟分别合并10个文件。再最后一趟中4个已合并的文件和余下的6个（未合并的）文件合计10个文件。具体流程如下图所示：

注意：这并没有改变合并次数，它只是一个优化措施，目的是尽量减少写到磁盘的数据量，因为最后一趟总是直接合并到reduce。看到这里您是否理解了Shuffle的具体原理呢，如果没有，也没有关系，接下来我们通过一个wordcount案例再将整个流程梳理一遍。

在分区（分区规则：按首字母分四个区，分别为a-i,j-q,r-z,其它）的过程中，会将相同的单词合并到一起，将出现次数用逗号隔开，如上图所示。注意此时还没有排序。

接着执行排序操作，默认排序规则是按照key的字典升序排序，当然你也可以指定排序规则，排序后如下图所示：

接下来执行combiner操作，将每个单词后续的1求和。

combiner的结果如上图所示

map任务执行完，产生N个spill文件，接着对N个文件进行合并，分以下两种情况：1.N<3，无论是否指定combiner类，合并文件时都不会执行combiner

2.N>=3,如果指定了combiner类将执行combiner操作，如下图：

接下来进入fetch（或copy）阶段

然后在reduce端进行合并

然后执行最后一趟合并，并将结果直接传给reduce

reduce task执行后，输出结果：

单词数量统计案例实战_运行自带的wordcount下 MapReduce工作流程二

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越（北京）科技有限公司 All Rights Reserved.

京ICP备14032124号-2