Popis kurzu
Modul 1 – Pracovný postup analýzy
- Definujte pojmy súvisiace s analytikou a dátovou vedou
- Popíšte pracovný postup analýzy
- Popíšte bežné scenáre použitia
- Navigácia v sade Splunk Machine Learning Toolkit
Modul 2 – Prieskumná analýza dát
- Popíšte účel prieskumu dát
- Identifikujte príkazy SPL pre prieskum dát
- Rozdeľte dáta pre testovanie a školenie pomocou príkazu sample
Modul 3 – Predvídanie číselných polí s regresiou
- Odlíšenie predpovedí od odhadov
- Identifikujte predikčné algoritmy a predpoklady
- Popíšte príkazy prispôsobenia a použitia
- Model numerických predikcií v MLTK a Splunk Enterprise
- Na vyhodnotenie modelov použite príkaz score
Modul 4 – Čistenie a predspracovanie dát
- Definujte predspracovanie a popíšte jeho účel
- Popíšte algoritmy, ktoré predspracovávajú údaje na použitie v modeloch
- Použite FieldSector na výber relevantných polí
- Na zníženie rozmerov použite PCA a ICA
- Normalizujte dáta pomocou StandardScaler a RobustScaler
- Predspracovanie textu pomocou Imputer a NPR, TF-IDF, HashingVectorizer a príkaz klastra
Modul 5 – Clusterové údaje
- Definujte zhlukovanie
- Identifikujte metódy zhlukovania, algoritmy a prípady použitia
- Na zhlukovanie dát použite Smart Clustering Assistant
- Vyhodnoťte zhluky pomocou skóre siluety
- Overenie súdržnosti zhlukov
- Popíšte osvedčené postupy zhlukovania
Modul 6 – Detekcia anomálií
- Definujte detekciu anomálií a odľahlej hodnoty
- Identifikujte prípady použitia detekcie anomálií
- Použite nástroj Splunk Machine Learning ToolKit Smart Outlier Assistant
- Detekujte anomálie pomocou algoritmu funkcie hustoty
- Optimalizujte detekciu anomálií pomocou miestneho odľahlého faktora
- Pozrite si výsledky pomocou vizualizácie Distribučný graf
Modul 7 – Odhad a predpoveď
- Odlíšenie predikcií od predpovedí
- Použite Smart Forecasting Assistant
- Použite algoritmus StateSpaceForecast
- Prognóza dát s viacerými premennými
- Zohľadnite periodicitu v každom časovom rade
Modul 8 – Klasifikácia
- Definujte kľúčové klasifikačné pojmy
- Používajte klasifikačné algoritmy
- Automatická predpoveď
- Logistická regresia
- SVM (podpora vektorových strojov)
- RandomForestClassifier
- Vyhodnoťte kompromisy klasifikátorov
- Vyhodnoťte výsledky viacerých algoritmov