Cod: EAS-017
Durata: 24 ore
Durata: 24 ore
Descriere
Acest training abordeaza metodele si conceptele cheie legate de dezvoltarea aplicatiilor de procesare a datelor folosind Apache Spark. In cadrul cursului vom discuta despre RDD-based framework pentru automated distributed code execution dar si despre Spark SQL, Spark Streaming, MLLib, Spark ML, GraphX.Subiecte curs
- Arhitectura si conceptele Spark
- Programarea cu RDD: transformari si actiuni
- Utilizarea key/vaule pairs
- Incarcarea si stocarea datelor
- Variabile accumulators si broadcast
- Spark SQL, DataFrames, Datasets
- Spark Streaming
- Machine Learning folosind MLLib si Spark ML
- Graph analysis folosind GraphX
Obiective
- Intelegerea conceptelor si arhitecturii de baza Spark
- Scrierea de data processing pipelines queries folosind RDD simple si pair
- Scrierea de programe de procesare a datelor folosind DataFrames
- Scrierea de programe de stream processing folosind Dstreams
- Utilizarea pre-packaged machine learning si graph analysis algorithms
- Mutarea datelor intre Spark si sisteme externe (Kafka, Cassandra)
Public tinta
- Programatori
- Arhitecti software