Table des matières:

Qu'est-ce que la collecte PySpark ?
Qu'est-ce que la collecte PySpark ?

Vidéo: Qu'est-ce que la collecte PySpark ?

Vidéo: Qu'est-ce que la collecte PySpark ?
Vidéo: Introduction à Spark 2024, Novembre
Anonim

Collecter (Action) - Renvoie tous les éléments de l'ensemble de données sous forme de tableau au niveau du programme pilote. Ceci est généralement utile après un filtre ou une autre opération qui renvoie un sous-ensemble suffisamment petit des données.

De cette façon, qu'est-ce que PySpark ?

PySpark La programmation. PySpark est la collaboration d'Apache Spark et Python. Apache Spark est un framework de cluster de calcul open source, construit autour de la vitesse, de la facilité d'utilisation et de l'analyse en continu, tandis que Python est un langage de programmation de haut niveau à usage général.

Aussi, qu'est-ce que la carte dans PySpark ? Étincelle Carte Transformation. UNE carte est une opération de transformation dans Apache Spark. Il s'applique à chaque élément de RDD et renvoie le résultat en tant que nouveau RDD. Carte transforme un RDD de longueur N en un autre RDD de longueur N. Les RDD d'entrée et de sortie auront généralement le même nombre d'enregistrements.

De cette façon, qu'est-ce que SparkContext dans PySpark ?

PySpark - SparkContext . Annonces. SparkContext est le point d'entrée de tout étincelle Fonctionnalité. Lorsque nous exécutons n'importe quel Étincelle application, un programme pilote démarre, qui a la fonction principale et votre SparkContext est initié ici. Le programme pilote exécute ensuite les opérations à l'intérieur des exécuteurs sur les nœuds de travail.

Comment vérifier la version de PySpark ?

2 réponses

  1. Ouvrez Spark shell Terminal et entrez la commande.
  2. sc.version Ou spark-submit --version.
  3. Le moyen le plus simple est de lancer simplement "spark-shell" en ligne de commande. Il affichera le.
  4. version active actuelle de Spark.

Conseillé: