Quali sono i diversi formati di file in Hadoop?
Quali sono i diversi formati di file in Hadoop?
Anonim

Fortunatamente per te, la comunità dei big data ha sostanzialmente optato per tre ottimizzati formati di file per l'uso in Hadoop cluster: Optimized Row Columnar (ORC), Avro e Parquet.

Successivamente, ci si potrebbe anche chiedere, quali sono i diversi tipi di formati di dati?

Ce ne sono tre tipi di dati mappatura e GIS formati di dati . Ogni genere viene gestito diversamente.

Tipi di formato dati

  • File-based: Shapefile, Microstation Design File (DGN), immagini GeoTIFF.
  • Basato su directory - ESRI ArcInfo Coverages, US Census TIGER.
  • Connessioni al database - PostGIS, ESRI ArcSDE, MySQL.

Inoltre, quale formato di file è il migliore in hive? RCFile è riga colonnare formato del file . Questa è un'altra forma di Formato file Hive che offre tassi di compressione a livello di riga elevato. Se hai l'esigenza di eseguire più righe alla volta, puoi utilizzare RCFile formato.

Tenendo questo in considerazione, quali sono i formati di input comuni in Hadoop?

InputFormat crea Inputsplit

  • I formati di input più comuni sono:
  • FileInputFormat: è la classe di base per tutti gli InputFormat basati su file.
  • TextInputFormat: è il formato di input predefinito di MapReduce.
  • KeyValueTextInputFormat: è simile a TextInputFormat.
  • Segui il link per saperne di più su InputFormat in Hadoop.

Qual è il formato di file orc in Hadoop?

Formato file ORC Il colonnare riga ottimizzato ( ORC ) formato del file fornisce un modo altamente efficiente per archiviare i dati di Hive. È stato progettato per superare i limiti dell'altro alveare formati di file . Usando File ORC migliora le prestazioni durante la lettura, la scrittura e l'elaborazione di dati da parte di Hive.

Consigliato: