Qu'est-ce que la réduction par clé ?
Qu'est-ce que la réduction par clé ?

Vidéo: Qu'est-ce que la réduction par clé ?

Vidéo: Qu'est-ce que la réduction par clé ?
Vidéo: Qu'est-ce que la réduction des méfaits? - Vincent Marcoux, directeur général de l'AQCID 2024, Novembre
Anonim

La fonction Spark RDD reduceByKey fusionne les valeurs pour chaque clé à l'aide d'un associatif réduire fonction. Cela signifie intuitivement que cette fonction produit le même résultat lorsqu'elle est appliquée de manière répétitive sur le même ensemble de données RDD avec plusieurs partitions, quel que soit l'ordre des éléments.

Alors, quelle est la différence entre groupByKey et reduceByKey ?

groupeParClé () consiste simplement à regrouper votre ensemble de données en fonction d'une clé. réduireParClé () est quelque chose comme regroupement + agrégation. réduireParClé peut être utilisé lorsque nous exécutons un ensemble de données volumineux. AggregateByKey() est logiquement identique à réduireParClé () mais il vous permet de retourner le résultat dans différent taper.

Sachez également, pourquoi réduire l'action en étincelle ? Réduction des étincelles l'opération est une action type d'opération et il déclenche une exécution complète du DAG pour toutes les instructions paresseuses alignées. Étincelle RDD réduire La fonction réduit les éléments de ce RDD à l'aide de l'opérateur binaire commutatif et associatif spécifié. Réduction des étincelles le fonctionnement est presque similaire à réduire méthode dans Scala.

A côté de ci-dessus, qu'est-ce que Pairrdd ?

Spark fournit des opérations spéciales sur les RDD contenant des paires clé/valeur. Ces RDD sont appelés RDD paires. Les paires RDD sont un élément utile dans de nombreux programmes, car elles exposent des opérations qui vous permettent d'agir sur chaque clé en parallèle ou de regrouper des données sur le réseau. Paire de RDD sont des paires CLÉ/VALEUR.

Est-ce que reduceByKey est une action ?

reduce() génère une collection qui ne s'ajoute pas au graphe acyclique dirigé (DAG) et est donc implémentée comme un action . Cependant, réduireParClé () renvoie un RDD qui est juste un autre niveau/état dans le DAG, est donc une transformation.

Conseillé: