MapReduce

[Acceler8 '12] Scaling fast sequential algorithms using MapReduce

Parallel algorithm vs. work in parallel

As many of the forum posts have shown, fast algorithms for solving the problem of maximal common substrings gave good results on the benchmarck but didn't really scale with the number of threads. This is because those sub-square (linear or n*logn) algorithms are hard to parallelize. Generally, when faced to such a situation one should accept the fact that the algorithm can't be parallelized and search for other approaches to make their solution scalable.

Apache Hadoop и топ самых частотных слов

Всем привет!
Как и обещал, продолжу рассказ про MapReduce описанием реализации Apache Hadoop и примером реальной программы.

Задача, которую мы будем рассматривать - построение списка наиболее частоупотребимых слов в наборе документов (входными данными послужит список статей википедии).

Введение в технологию MapReduce

Введение
Поскольку такие технологии параллельного программирования, как OpenMp, TBB, pthreads, Cilk+ уже широко известны читателям, я решил описать технологию распределенных вычислений MapReduce. Технология, на мой взгляд, пока еще получает недостаточно внимания, хотя уже набирает популярность: Employees From Yahoo, Google, And Facebook Are Flocking To These Start-Ups

Краткое описание

S’abonner à MapReduce