Table des matières:

Comment puis-je améliorer mes performances de sqoop ?
Comment puis-je améliorer mes performances de sqoop ?

Vidéo: Comment puis-je améliorer mes performances de sqoop ?

Vidéo: Comment puis-je améliorer mes performances de sqoop ?
Vidéo: Big Data, Hadoop : les solutions pour améliorer la performance de l’entreprise 2024, Novembre
Anonim

Optimiser performance , ensemble les nombre de tâches de mappage à une valeur inférieure à les nombre maximal de connexions qui les prend en charge la base de données. Contrôler les quantité de parallélisme qui Sqoop utilisera pour transférer des données est les principal moyen de contrôler les charger sur ton base de données.

En conséquence, que se passe-t-il si sqoop échoue entre un processus ?

Un typique Sqoop Le travail qui ingère des données d'une base de données source dans HDFS copiera les données dans un répertoire cible. Le fichier copié va être supprimé si sqoop échoue sans terminer.

On peut aussi se demander, comment réalisez-vous le parallélisme dans sqoop ? Contrôler Parallélisme . Sqoop importe des données en parallèle à partir de la plupart des sources de bases de données. Vous pouvez spécifier le nombre de tâches de mappage (processus parallèles) à utiliser pour effectuer l'importation en utilisant l'argument -m ou --num-mappers. Chacun de ces arguments prend une valeur entière qui correspond au degré de parallélisme employer

Par conséquent, comment améliorer les performances de ma requête Hive ?

Vous trouverez ci-dessous la liste des pratiques que nous pouvons suivre pour optimiser les requêtes Hive

  1. Activez la compression dans Hive.
  2. Optimiser les jointures.
  3. Évitez le tri global dans Hive.
  4. Activez le moteur d'exécution Tez.
  5. Optimiser l'opérateur LIMIT.
  6. Activer l'exécution parallèle.
  7. Activez le mode strict de Mapreduce.
  8. Réduction unique pour plusieurs groupes BY.

Comment fonctionne le fractionnement de sqoop ?

Il peut être utilisé pour améliorer les performances d'importation en obtenant un plus grand parallélisme. Sqoop crée se divise basé sur les valeurs d'une colonne particulière de la table qui est spécifiée par -- diviser -by par l'utilisateur via la commande import. Si elle n'est pas disponible, la clé primaire de la table d'entrée est utilisée pour créer le se divise.

Conseillé: