Qual è il problema con i file di piccole dimensioni in Hadoop?
Qual è il problema con i file di piccole dimensioni in Hadoop?

Video: Qual è il problema con i file di piccole dimensioni in Hadoop?

Video: Qual è il problema con i file di piccole dimensioni in Hadoop?
Video: Filippo Natali - BIG DATA STORAGE & PROCESSING: INTRODUZIONE AD HADOOP E IL SUO ECOSISTEMA - IDI... 2024, Dicembre
Anonim

1) Problema con file di piccole dimensioni in HDFS : Memorizzazione molto di piccoli file che sono estremamente più piccoli che la dimensione del blocco non può essere gestita in modo efficiente da HDFS . Leggendo attraverso piccoli file implicano molte ricerche e molti salti tra nodo di dati e nodo di dati, il che a sua volta è un'elaborazione dei dati inefficiente.

Oltre a questo, quali file si occupano di piccoli problemi di file in Hadoop?

1) HAR ( Hadoop Archivio) File è stato presentato a affrontare problemi di file di piccole dimensioni . HAR ha introdotto uno strato sopra HDFS , che forniscono l'interfaccia per file accesso. Usando Hadoop comando di archiviazione, HAR File vengono creati, che esegue un Riduci mappa lavoro per imballare il File essere archiviato in più piccoli numero di File HDFS.

Inoltre, posso fare in modo che più file in HDFS utilizzino blocchi di dimensioni diverse? Predefinito dimensione di bloccare è 64MB. tu Potere cambialo a seconda delle tue esigenze. Venendo alla tua domanda sì tu può creare più file variando dimensioni dei blocchi ma in tempo reale questo volere non favorire la produzione.

Inoltre, perché HDFS non gestisce in modo ottimale i file di piccole dimensioni?

Problemi con piccoli file e HDFS Ogni file , directory e blocco in HDFS è rappresentato come un oggetto nella memoria del namenode, ognuno dei quali occupa 150 byte, come regola empirica. Per di più, HDFS non lo è orientato ad accedere in modo efficiente piccoli file : esso è progettato principalmente per l'accesso in streaming di grandi File.

Perché Hadoop è lento?

Lento Velocità di elaborazione Questo disco cerca richiede tempo, rendendo così l'intero processo molto Lento . Se Hadoop elabora i dati in piccoli volumi, è molto Lento comparativamente. È ideale per set di dati di grandi dimensioni. Come Hadoop ha un motore di elaborazione batch al centro, la sua velocità per l'elaborazione in tempo reale è inferiore.

Consigliato: