Cos'è l'RDD in Scala?
Cos'è l'RDD in Scala?

Video: Cos'è l'RDD in Scala?

Video: Cos'è l'RDD in Scala?
Video: What is a Spark Dataframe? 2024, Novembre
Anonim

Set di dati distribuiti resilienti ( RDD ) è una struttura dati fondamentale di Spark. È una raccolta distribuita immutabile di oggetti. RDD può contenere qualsiasi tipo di Python, Java o Scala oggetti, comprese le classi definite dall'utente. Formalmente, an RDD è una raccolta di record partizionata e di sola lettura.

Anche la domanda è: qual è la differenza tra RDD e DataFrame?

RDD – RDD è una raccolta distribuita di elementi di dati distribuiti su molte macchine nel grappolo. RDD sono un insieme di oggetti Java o Scala che rappresentano dati. DataFrame - UN DataFrame è una raccolta distribuita di dati organizzati in colonne denominate. È concettualmente uguale a una tabella in un banca dati relazionale.

Inoltre, come viene distribuito RDD? Resiliente distribuito Set di dati ( RDD ) Loro sono un distribuito raccolta di oggetti, che sono archiviati in memoria o su dischi di macchine diverse di un cluster. Una sola RDD può essere suddiviso in più partizioni logiche in modo che queste partizioni possano essere archiviate ed elaborate su diverse macchine di un cluster.

come funziona la scintilla RDD?

RDD in Scintilla avere una raccolta di record che contengono partizioni. RDD in Scintilla sono divisi in piccoli blocchi logici di dati - noti come partizioni, quando viene eseguita un'azione, verrà avviata un'attività per partizione. Partizioni in RDD sono le unità di base del parallelismo.

Qual è il più veloce RDD o DataFrame?

RDD - Durante l'esecuzione di semplici operazioni di raggruppamento e aggregazione RDD L'API è più lenta. DataFrame - nello svolgimento di analisi esplorative, creazione di statistiche aggregate sui dati, dataframes sono Più veloce . RDD - Quando vuoi trasformazioni e azioni di basso livello, usiamo RDD . Inoltre, quando abbiamo bisogno di astrazioni di alto livello usiamo RDD.

Consigliato: