Sommario:

Come posso migliorare le mie prestazioni sqoop?
Come posso migliorare le mie prestazioni sqoop?

Video: Come posso migliorare le mie prestazioni sqoop?

Video: Come posso migliorare le mie prestazioni sqoop?
Video: 10000 METRI: Come posso MIGLIORARE le mie PRESTAZIONI? 8 CONSIGLI (2019) 2024, Aprile
Anonim

Ottimizzare prestazione , set il numero di attività di mappatura a un valore inferiore a il numero massimo di connessioni che il supporti per banche dati. controllo il quantità di parallelismo che Sqoop utilizzerà per trasferire i dati è il modo principale per controllare il caricare su tuo Banca dati.

Di conseguenza, cosa succede se sqoop fallisce tra un processo?

Un tipico Sqoop il lavoro che sta importando dati da un database di origine in HDFS copierà i dati in una directory di destinazione. Il file copiato verrà eliminato se sqoop fallisce senza completare.

Ci si potrebbe anche chiedere, come si ottiene il parallelismo in sqoop? controllo Parallelismo . Sqoop importa i dati in parallelo dalla maggior parte delle fonti di database. È possibile specificare il numero di attività mappa (processi paralleli) da utilizzare per eseguire l'importazione utilizzando l'argomento -mo --num-mappers. Ciascuno di questi argomenti assume un valore intero che corrisponde al grado di parallelismo impiegare

Di conseguenza, come posso migliorare le prestazioni delle mie query Hive?

Di seguito è riportato l'elenco delle pratiche che possiamo seguire per ottimizzare le query Hive

  1. Abilita la compressione in Hive.
  2. Ottimizza i join.
  3. Evita l'ordinamento globale in Hive.
  4. Abilita motore di esecuzione Tez.
  5. Ottimizza l'operatore LIMIT.
  6. Abilita esecuzione parallela.
  7. Abilita la modalità rigorosa di Mapreduce.
  8. Riduzione singola per Multi Group BY.

Come funziona lo split split?

Può essere utilizzato per migliorare le prestazioni di importazione ottenendo un maggiore parallelismo. Sqoop crea si divide in base ai valori in una particolare colonna della tabella che è specificata da -- diviso -by dall'utente tramite il comando import. Se non è disponibile, la chiave primaria della tabella di input viene utilizzata per creare il si divide.

Consigliato: