Qu'est-ce que le format des données du parquet ?
Qu'est-ce que le format des données du parquet ?

Vidéo: Qu'est-ce que le format des données du parquet ?

Vidéo: Qu'est-ce que le format des données du parquet ?
Vidéo: Apache Parquet, c'est quoi ?? 2024, Peut
Anonim

Apache Parquet est une colonne libre et open-source orientée Les données espace de rangement format de l'écosystème Apache Hadoop. Il est compatible avec la plupart des Les données frameworks de traitement dans l'environnement Hadoop. Il fournit efficace Les données schémas de compression et d'encodage avec des performances améliorées pour gérer Les données en masse.

Bref, quel est le format de fichier parquet ?

Parquet , une source ouverte format de fichier pour Hadoop. Parquet stocke les structures de données imbriquées dans une colonne plate format . Par rapport à une approche traditionnelle où les données sont stockées dans une approche orientée lignes, parquet est plus efficace en termes de stockage et de performances.

De plus, à quoi sert le parquet ? Parquet est un format de fichier open source disponible pour tout projet de l'écosystème Hadoop. Apache Parquet est conçu pour un format de stockage de données en colonnes plat efficace et performant par rapport aux fichiers basés sur des lignes tels que les fichiers CSV ou TSV.

De plus, comment le format parquet stocke-t-il les données ?

LES DONNÉES BLOC Chaque bloc du parquet le fichier est stocké sous forme de groupes de lignes. Donc, Les données dans un parquet le fichier est partitionné en plusieurs groupes de lignes. Ces groupes de lignes se composent à leur tour d'un ou plusieurs blocs de colonnes qui correspondent à une colonne dans le Les données ensemble. Les Les données pour chaque bloc de colonne écrit sous forme de pages.

Le parquet est-il lisible par l'homme ?

ORC, Parquet , et Avro sont également des machines- lisible formats binaires, c'est-à-dire que les fichiers ressemblent à du charabia à humains . Si tu as besoin un humain - lisible format comme JSON ou XML, vous devriez probablement reconsidérer pourquoi vous utilisez Hadoop en premier lieu.

Conseillé: