Quel est le problème avec les petits fichiers dans Hadoop ?
Quel est le problème avec les petits fichiers dans Hadoop ?

Vidéo: Quel est le problème avec les petits fichiers dans Hadoop ?

Vidéo: Quel est le problème avec les petits fichiers dans Hadoop ?
Vidéo: MapReduce - Hadoop | Serge Abiteboul 2024, Novembre
Anonim

1) Petit problème de fichier dans HDFS : Stockage de beaucoup de petits fichiers qui sont extrêmement plus petite que la taille du bloc ne peut pas être gérée efficacement par HDFS . Lecture à travers petits fichiers impliquent beaucoup de recherches et de nombreux sauts entre les nœuds de données et les nœuds de données, ce qui est à son tour un traitement de données inefficace.

A côté de cela, quels fichiers traitent des problèmes de petits fichiers dans Hadoop ?

1) HAR ( Hadoop Archiver) Des dossiers a été présenté à traiter le problème des petits fichiers . HAR a introduit une couche au-dessus de HDFS , qui fournissent une interface pour déposer accéder. À l'aide de Hadoop commande d'archivage, HAR des dossiers sont créés, qui exécute un CarteRéduire travail pour emballer le des dossiers étant archivé dans plus petite nombre de Fichiers HDFS.

De plus, puis-je faire en sorte que plusieurs fichiers dans HDFS utilisent différentes tailles de bloc ? Défaut Taille de bloquer est de 64 Mo. tu pouvez changez-le en fonction de vos besoins. Pour en venir à ta question oui toi peut créer plusieurs fichiers en variant tailles de bloc mais en temps réel cela volonté pas favoriser la production.

De plus, pourquoi HDFS ne gère pas les petits fichiers de manière optimale ?

Problèmes avec petits fichiers et HDFS Tous déposer , répertoire et bloc dans HDFS est représenté comme un objet dans la mémoire du namenode, dont chacun occupe 150 octets, en règle générale. Par ailleurs, HDFS n'est pas conçu pour accéder efficacement petits fichiers : ce est principalement conçu pour l'accès en streaming de grands des dossiers.

Pourquoi Hadoop est-il lent ?

Lent Vitesse de traitement La recherche de ce disque prend du temps, ce qui rend l'ensemble du processus très lent . Si Hadoop traite des données en petit volume, il est très lent relativement. Il est idéal pour les grands ensembles de données. Comme Hadoop a un moteur de traitement par lots au cœur de sa vitesse de traitement en temps réel est moindre.

Conseillé: