Comment la localisation des données est-elle réalisée dans Hadoop ?
Comment la localisation des données est-elle réalisée dans Hadoop ?

Vidéo: Comment la localisation des données est-elle réalisée dans Hadoop ?

Vidéo: Comment la localisation des données est-elle réalisée dans Hadoop ?
Vidéo: Hadoop c'est quoi - Hadoop Tuto Vidéo 2024, Novembre
Anonim

Localisation des données dans Hadoop . Prenons l'exemple de Wordcount, où la plupart des mots ont été répétés 5 Lacs ou plus. Dans ce cas, après la phase de mappeur, chaque sortie de mappeur aura des mots de l'ordre de 5 lacs. Ce processus complet de stockage de la sortie du mappeur dans LFS est appelé Localisation des données.

En gardant cela à l'esprit, qu'est-ce que la localisation des données dans Hadoop ?

Le concept de Données localité dans Données Hadoop localité dans CarteRéduire fait référence à la capacité de déplacer le calcul près de l'endroit où le réel Les données réside sur le nœud, au lieu de se déplacer volumineux Les données au calcul. Cela minimise la congestion du réseau et augmente le débit global du système.

De plus, comment le Big Data est-il stocké ? La plupart des gens associent automatiquement HDFS, ou Hadoop Distributed File System, à Hadoop Les données entrepôts. HDFS stocke les informations dans des clusters constitués de blocs plus petits. Ces blocs sont stocké en physique sur place espace de rangement unités, telles que les lecteurs de disque internes.

Justement, comment les données sont-elles stockées dans Hadoop ?

Sur un Hadoop cluster, le Les données dans HDFS et le système MapReduce sont hébergés sur chaque machine du cluster. Données est stocké dans Les données blocs sur les DataNodes. HDFS réplique ces Les données blocs, généralement d'une taille de 128 Mo, et les distribue afin qu'ils soient répliqués dans plusieurs nœuds du cluster.

Comment les fichiers sont-ils stockés dans HDFS ?

HDFS expose un déposer espace de noms système et permet aux données utilisateur d'être stocké dans des dossiers . En interne, un déposer est divisé en un ou plusieurs blocs et ces blocs sont stocké dans un ensemble de DataNodes. Le NameNode s'exécute déposer opérations d'espace de noms système telles que l'ouverture, la fermeture et le renommage des dossiers et répertoires.

Conseillé: