СПАРК - передел() против коалесцируют()

Question

Дополнительно

Вопрос

СПАРК - передел() против коалесцируют()

По данным СПАРК обучения

имейте в виду, что перераспределение ваших данных является достаточно дорогостоящей операцией. Искра также есть оптимизированная версия передел() называется сливаются (), что позволяет избежать перемещения данных, но только если вы уменьшаете количество РДД перегородок.

Одно отличие я понимаю, что с передел() количество секций может быть увеличено/уменьшено, но с коалесцируют() количество секций может быть только уменьшено.

Если разделы распределены по нескольким компьютерам и коалесцируют() запускается, можно как то избежать перемещения данных?

gsamaras

Редактировал вопрос 17-го августа 2016 в 6:04

Программирование

apache-spark

distributed-computing

rdd

Решение / Ответ

Powers

5-го декабря 2016 в 8:54

Дополнительно

Джастин'ы ответ и этот ответ переходит в более подробно.

В передел алгоритм выполняет полный перемешать и создает новые разделы с данными, что'ы распределяется равномерно. Позвольте's создание таблицы данных с цифрами от 1 до 12.

val x = (1 to 12).toList
val numbersDf = x.toDF("number")

numbersDf содержит 4 раздела на моей машине.

numbersDf.rdd.partitions.size // => 4

Вот как данные разделены на разделы:

Partition 00000: 1, 2, 3
Partition 00001: 4, 5, 6
Partition 00002: 7, 8, 9
Partition 00003: 10, 11, 12

Позвольте's сделаю полный перемешать с метод передел и получить эти данные на два узла.

val numbersDfR = numbersDf.repartition(2)

Вот как numbersDfR данные разделяются на моей машине:

Partition A: 1, 3, 4, 6, 7, 9, 10, 12
Partition B: 2, 5, 8, 11

В передел метод делает новые разделы и равномерно распределяет данные в новые разделы (распределение данных, даже для больших наборов данных).

Разница между сливаются и передел

сливаются использует существующие разделы, чтобы минимизировать объем данных, что'ы перемешиваются. передел создает новые разделы и выполняет полный перемешать. сливаются результаты в группах с различными объемами данных (иногда разделы, которые имеют много разных размеров) и передел результаты примерно равные по размеру части.

Это сливаются или передел быстрее?

сливаются может работать быстрее, чем передел, но неравные по размеру части, как правило, медленнее работать, чем равные по размеру части. Вы'Лл обычно нужно переразметить данных после фильтрации больших наборов данных. Я'ве нашли передел, чтобы быть быстрее в целом, потому что Искра построена на равные по размеру части.

Читать эту post блог если вы'd, как еще более детально.

137

0

Harikrishnan Ck

21-го августа 2016 в 3:44

Дополнительно

Еще один важный момент, чтобы отметить здесь заключается в том, что основной принцип Искра РДД-это непреложность. Передел или сливаются создаст новые РДД. Базы РДД будет продолжать существование с его первоначальным количеством секций. В случае использования требует для сохранения РДД в кэш, то же самое должно быть сделано для вновь созданных РДД.

scala> pairMrkt.repartition(10)
res16: org.apache.spark.rdd.RDD[(String, Array[String])] =MapPartitionsRDD[11] at repartition at <console>:26

scala> res16.partitions.length
res17: Int = 10

scala>  pairMrkt.partitions.length
res20: Int = 2

21

0

Abhishek

21-го июня 2017 в 7:53

Дополнительно

Все ответы добавив несколько большие знания в этом очень часто задаваемый вопрос.

Так происходит по традиции этот вопрос'ы график, вот мои 2 цента.

Я нашел передел будет быстрее срастаться, в очень конкретном случае.

В моем приложении, когда количество файлов, которые мы оцениваем ниже, чем определенный порог, передел работает быстрее.

Вот что я имею в виду

if(numFiles > 20)
    df.coalesce(numFiles).write.mode(SaveMode.Overwrite).parquet(dest)
else
    df.repartition(numFiles).write.mode(SaveMode.Overwrite).parquet(dest)

В вышеприведенном фрагменте кода, если мои файлы были меньше, чем 20, сливаются принимает навсегда, чтобы завершить в то время как передел был намного быстрее, и поэтому приведенный выше код.

Конечно, эта цифра (20) будет зависеть от количества работников и объема данных.

Надеюсь, что помогает.

Jozef Dúc

Редактировал ответ 24-го июля 2017 в 10:00

9

0

Bujuti Niranjan Reddy

24-го августа 2017 в 6:46

Дополнительно

В простой способ КОАЛЕСЦИРУЙТЕ :- только уменьшается без перегородок , без перетасовки данных это просто сжимать разделы

Передел:- для увеличения и уменьшения нет перегородок , но перетасовки происходит

Например:-

val rdd = sc.textFile("path",7)
rdd.repartition(10)
rdd.repartition(2)

Как работает

Но мы ходим в основном для этого две вещи, когда мы должны увидеть выход в один кластер,мы идем с этим.

0

Похожие сообщества 2

pro.kafka

3 557 пользователей

Чат для добросовестных господ и дам, посвящённый Apache Kafka. Без флуда, оскорблений, оффтопа и токсичности Вакансии, эвенты и объявления – в ЛС @gamussa Канал по Kafka: @AwesomeKafka_ru Вакансии с Kafka: @kafka_jobs Соседи: @jvmchat, @proKong_chat

1 554 пользователей

Категории

Все

Технологий

Культура / Отдых

Жизнь / Искусство

Наука

Профессии

Бизнес

Пользователи

Все

Новые