MapReduce 是一种编程模型,用于处理和生成大数据集(大于1TB),它的概念“Map(映射)”和“Reduce(归约)”,以及他们的主要思想,都是从函数式编程语言里借鉴的,还有从矢量编程语言里借鉴的特性。
(图片来源网络,侵删)MapReduce 程序可以用各种语言编写,C++ 和 Java 是最常用的,MapReduce 程序通常在分布式系统上运行,Hadoop 平台。
以下是 MapReduce 的详细过程:
1. 输入数据
你需要有一个输入数据集,这个数据集通常是大量的文本文件,每个文件的大小从几MB到几GB不等。
2. Map阶段
在 Map 阶段,输入数据被分成小块或分片,以便能够以并行方式进行处理,对于每一块,一个 Map 任务会被启动,Map 任务会将输入数据转换为键值对。
如果你正在统计单词的频率,Map 任务可能会将每一行文本转换为 (word, 1) 这样的键值对。
(图片来源网络,侵删)map(String key, String value): // key: document name // value: text of the document for each word w in value: EmitIntermediate(w, "1");
3. Shuffle阶段
Shuffle 阶段是将 Map 输出的键值对按照键进行排序和分组的过程,这是为了确保具有相同键的所有值都发送到同一个 Reduce 任务。
4. Reduce阶段
在 Reduce 阶段,每个 Reduce 任务会接收一组具有相同键的值,并生成一个最终的结果,如果我们正在统计单词的频率,Reduce 任务可能会将所有的值相加,得到该单词的总频率。
reduce(String key, Iterator values): // key: a word // values: a list of counts int sum = 0; for each v in values: sum += ParseInt(v); Emit(key, sum);
5. 输出结果
所有 Reduce 任务的输出结果会被合并成一个结果集,通常是一个新的文本文件。
这就是 MapReduce 的基本流程,需要注意的是,虽然上述例子中我们处理的是文本数据,但 MapReduce 并不仅限于处理文本数据,它可以处理任何类型的大数据。
(图片来源网络,侵删)
最新评论
本站CDN与莫名CDN同款、亚太CDN、速度还不错,值得推荐。
感谢推荐我们公司产品、有什么活动会第一时间公布!
我在用这类站群服务器、还可以. 用很多年了。