Cod: EAS-015
Durata: 24 ore
Durata: 24 ore
Descriere
Apache Hadoop este un framework open-source folosit pentru stocarea si procesarea eficienta a unor seturi mari de date. Ne permite sa creem clustere cu mai multe computere prin care sa putem facilita rapid si in paralel analiza unui volum mare de date. Vom aborda HDFS, standardul de-facto pentru stocarea pe termen lung si la scara mare a datelor, framework-ul MapReduce pentru executia automata si distribuita a codului si proiecte din ecosistemul Hadoop pe care le putem folosi.Subiecte curs
- Concepte de baza Hadoop
- Instalare si configurare Hadoop local si in cloud
- Arhitectura HDFS, replication, reads si writes
- Comenzi HDFS
- Structura programului MapReduce (MRv1)
- Formate de date pentru MapReduce
- Arhitectura YARN
- Eexecutia taskurilor in MRv1 si in YARN
- Distributed cache si counters
- Hadoop Streaming
- Hadoop Ecosystem si Vendors
- Introducere in Pig
- Introducere in Hive
- Introducere in Sqoop
- Introducere in Flume
- Introducere in Spark
- Introducere in Mahout
Obiective
- Intelegerea conceptelor si arhitecturii de baza a Hadoop
- Designul de modele de date pentru Hadoop
- Scrierea de CQL queries folosind basic types si collections
- Acces la Hadoop din programele Java
- Familiarizarea cu librarii / frameworks asemanatoare cu ORM pentru Hadoop
Public tinta
- Programatori
- Arhitecti software
- Designeri baze de date
- Administratori baze de date
Cerinte curs
- Cunostinte de baza in programarea cu Java
- Cunostinte de Unix/Linux shell
- Experienta in baze de date - optional