Cod: EAS-025
Durata: 24 ore
Durata: 24 ore
Descriere
a:2:{s:4:"TEXT";s:858:"Vom aborda teoriile legate de clasificare, regresie, predictii si „ensembles”. Intregul curs este dezvoltat in jurul mai multor studii de caz insotite de seturi de date.Pentru fiecare studiu de caz, vom parcurge intregul ciclul de viata al unui proiect de machine learning – explorarea, curatarea si pregatirea datelor. Selectarea unei metode potrivita sarcinii (regresie liniara pentru regresii, random forest pentru clasificari, , K-average si DBSCAN pentru clustering). Cum invatam folosind metoda selectata. Evaluarea rezultatelor. Optimizarea modelului. Prezentarea rezultatelor catre clienti.
Vom aloca timp si pentru discutii legate de sarcinile practice cu care te-ai putea intalni. O parte din curs va fi dedicata situatiilor cu care se confrunta participantii si vom incerca sa formalizam si sa ii ajutam sa le depaseasca.";s:4:"TYPE";s:4:"HTML";}
Subiecte curs
a:2:{s:4:"TEXT";s:2123:"Prezentare sarcinii- Ce sarcini pot sa fie rezolvate cu ajutorul machine learning. Ce se intampla daca in locul unui Data Scientist folosim un non-specialist (programator / analyst / manager) si ne asteptam sa invete totul in cadrul procesului.
Pregatirea, curatarea si explorarea datelor
- Cum putem sa obtinem o perspectiva asupra datelor de business initiale (si cum le putem ordona). Secvente de procesare. Ce ar trebui sa fie facut doar de catre analistii cu experienta in domeniu, si ce ar trebui facut de un Data Scientist. Care sunt prioritatile legate de rezolvarea unei sarcini specifice.
Classifiers & Regressors
- Practica – sarcini formalizate cu date deja pregatite. Diferente intre sarcini (binary/nonbinary/probabilistic classification, regression), redistribuirea sarcinilor pe clase. Exemple de sarcini de clasificare practice.
Clustering
- Unde si cum putem sa facem: explorarea datelor, task setting check, si validarea rezultatelor. Ce situatii pot sa fie reduse la clustering.
Evaluarea modelului
- Metrici tehnice si business. Metrici pentru sarcini legate de clasificare si regresie, error matrix. Metrici interne si externe legate de clustering quality. Cross validation. Overfitting.
Optimizare
- Ce face un model mai bun ca altul: parametri, trasaturi si ensembles. Managementul parametrilor. Practica pentru selectarea trasaturilor. Prezentare a instrumentelor legate de cautarea celor mai buni parametri / trasaturi / metode.
Grafice, rapoarte, sarcini reale
- Cum sa vizualizam si sa prezentam rezultate. Teste semi-automate, process control points. De la sarcini reale legate de completarea procesului de R&D (“R&D in practica”) – revizuirea si analiza sarcinilor venite din partea participantilor
Obiective
a:2:{s:4:"TEXT";s:665:"- Ce sarcini pot sa fie rezolvate folosind machine learning (Big Data este doar o parte, nu o cerinta obligatorie)
- Cum sa folosesti tehnicile de machine learning si instrumentele de fast prototyping pentru a raspunde la intrebarea “Poti sa evaluezi un rezultat posibil pe baza unei implementari posibile?”
- Evidentierea datelor care ar trebui colectate si care ar putea sa fie cerintele legate de ele. De ce vrem sa “stocam petabytes”
- Pregatirea pentru subiecte mai complexe, in special solutii pentru probleme complexe de business
- Cum se potriveste machine learning cu analytics clasic.
Public tinta
- Analisti
- Manageri de proiect care lucreaza cu date
- Leads Tehnici / Senior Developeri implicati in proiecte unde se lucreaza cu date
- Analisti de business
- Programatori
- Data Engineers
- Arhitecti software
- Designeri de sistem
Cerinte curs
- Abilitatea de a citi cod simplu scris in Python si de a scrie cod in orice limbaj de scripting.