Qu'est-ce que RDD dans Scala?
Qu'est-ce que RDD dans Scala?

Vidéo: Qu'est-ce que RDD dans Scala?

Vidéo: Qu'est-ce que RDD dans Scala?
Vidéo: Atelier Spark -7- RDD 2024, Novembre
Anonim

Jeux de données distribués résilients ( RDD ) est une structure de données fondamentale de Spark. C'est une collection d'objets distribuée immuable. RDD peut contenir n'importe quel type de Python, Java ou Scala objets, y compris les classes définies par l'utilisateur. Formellement, un RDD est une collection d'enregistrements partitionnée en lecture seule.

La question est également: quelle est la différence entre RDD et DataFrame ?

RDD – RDD est une collection distribuée d'éléments de données répartis sur de nombreuses machines dans le grappe. RDD sont un ensemble d'objets Java ou Scala représentant des données. Trame de données - UNE Trame de données est une collection distribuée de données organisée en colonnes nommées. Il est conceptuellement égal à une table dans un base de données relationnelle.

De plus, comment le RDD est-il distribué ? Résilient Distribué Ensembles de données ( RDD ) Ils sont un distribué collection d'objets, qui sont stockés en mémoire ou sur des disques de différentes machines d'un cluster. Un seul RDD peut être divisé en plusieurs partitions logiques afin que ces partitions puissent être stockées et traitées sur différentes machines d'un cluster.

comment fonctionne le RDD Spark ?

RDD dans Étincelle avoir une collection d'enregistrements qui contiennent des partitions. RDD dans Étincelle sont divisés en petits morceaux logiques de données - appelés partitions, lorsqu'une action est exécutée, une tâche sera lancée par partition. Cloisons dans RDD sont les unités de base du parallélisme.

Quel est le RDD ou le DataFrame le plus rapide ?

RDD - En effectuant des opérations simples de regroupement et d'agrégation RDD L'API est plus lente. Trame de données - En réalisant des analyses exploratoires, en créant des statistiques agrégées sur les données, cadres de données sommes plus rapide . RDD - Lorsque vous souhaitez une transformation et des actions de bas niveau, nous utilisons RDD . De plus, lorsque nous avons besoin d'abstractions de haut niveau, nous utilisons RDD.

Conseillé: