Cos'è la riduzione per chiave?
Cos'è la riduzione per chiave?

Video: Cos'è la riduzione per chiave?

Video: Cos'è la riduzione per chiave?
Video: LE CHIAVI A BUSSOLA del Meccanico #IORESTOINGARAGE 2024, Maggio
Anonim

La funzione Spark RDD reduceByKey unisce i valori per ciascuno chiave usando un associativo ridurre funzione. Ciò significa intuitivamente che questa funzione produce lo stesso risultato quando applicata ripetutamente sullo stesso set di dati RDD con più partizioni indipendentemente dall'ordine degli elementi.

Allora, qual è la differenza tra groupByKey e reduceByKey?

groupByKey () è solo per raggruppare il tuo set di dati in base a una chiave. riduciByKey () è qualcosa come raggruppamento + aggregazione. riduciByKey può essere utilizzato quando si esegue su un set di dati di grandi dimensioni. aggregateByKey() è logicamente lo stesso di riduciByKey () ma ti consente di restituire il risultato in diverso genere.

Sappi anche, perché ridurre è l'azione in scintilla? Riduci scintille l'operazione è un azione tipo di operazione e avvia un'esecuzione completa del DAG per tutte le istruzioni pigre allineate. Scintilla RDD ridurre La funzione riduce gli elementi di questo RDD utilizzando l'operatore binario commutativo e associativo specificato. Riduci scintille il funzionamento è quasi simile come ridurre metodo in Scala.

Oltre sopra, cos'è Pairrdd?

Spark fornisce operazioni speciali su RDD contenenti coppie chiave/valore. Questi RDD sono chiamati RDD a coppia. Gli RDD di coppia sono un utile elemento costitutivo in molti programmi, poiché espongono operazioni che consentono di agire su ciascuna chiave in parallelo o raggruppare i dati attraverso la rete. CoppiaRDD sono coppie CHIAVE/VALORE.

RiduciByKey è un'azione?

reduce() restituisce una raccolta che non si aggiunge al grafo aciclico diretto (DAG), quindi è implementato come an azione . Però, riduciByKey () restituisce un RDD che è solo un altro livello/stato nel DAG, quindi è una trasformazione.

Consigliato: