Cos'è la scintilla di trasmissione?
Cos'è la scintilla di trasmissione?

Video: Cos'è la scintilla di trasmissione?

Video: Cos'è la scintilla di trasmissione?
Video: ✅ Gianluca Fubelli di Colorado Cafè all'Arena Unipol di Bologna 2024, Maggio
Anonim

Trasmissione variabili in Apache Scintilla è un meccanismo per condividere le variabili tra gli executor che dovrebbero essere di sola lettura. Privo di trasmissione variabili queste variabili verrebbero inviate a ciascun executor per ogni trasformazione e azione e ciò può causare un sovraccarico della rete.

Inoltre, da sapere è, quando dovrei trasmettere spark?

Trasmissione le variabili vengono utilizzate principalmente quando le attività in più fasi richiedono gli stessi dati o quando è richiesta la memorizzazione nella cache dei dati nel modulo deserializzato. Trasmissione le variabili vengono create utilizzando una variabile v chiamando SparkContext.

Ci si potrebbe anche chiedere, in che modo l'accumulatore definisce la scintilla? accumulatori sono variabili che vengono “aggiunte” solo attraverso un'operazione associativa e possono quindi essere efficacemente supportate in parallelo. Possono essere usati per implementare contatori (come in MapReduce) o somme. Scintilla supporta nativamente accumulatori di tipi numerici e i programmatori possono aggiungere il supporto per nuovi tipi.

Inoltre, qual è la variabile condivisa in spark?

Variabili condivise sono i variabili che devono essere utilizzati da molte funzioni e metodi in parallelo. Variabili condivise può essere utilizzato in operazioni parallele. Scintilla separa il lavoro nella più piccola operazione possibile, una chiusura, in esecuzione su nodi diversi e ciascuno con una copia di tutte le variabili del Scintilla lavoro.

Possiamo trasmettere un DataFrame?

Scintilla Potere “ trasmissione un piccolo DataFrame inviando tutti i dati in quel piccolo DataFrame a tutti i nodi del cluster. Dopo il piccolo DataFrame è trasmesso , Scintilla Potere eseguire un join senza mescolare nessuno dei dati nel grande DataFrame.

Consigliato: