
Machine Learning z Python
Szkolenia otwarte
3200 PLN
Szkolenia zamknięte
Cena ustalana indywidualnie
O szkoleniu
Python podobnie jak i R jednym z najpopularniejszych języków wykorzystywanych w data miningu. Duża popularność to zasługa łatwego do nauczenia języka oraz dużej społeczności pracującej nad rozwijaniem nowych bibliotek zwłaszcza w obszarze analizy danych i algorytmów machine learning.
Szkolenie machine learning w Python obejmuje swym zasięgiem wszystkie aspekty konieczne do stosowania algorytmów uczenia w praktyce. Szkolenie zaczyna się od wprowadzenia do maszynowego uczenia, wyjaśnia pojęcia i koncepcje związane z nim. W dalszej części uczestnicy zapoznają się z najważniejszymi bibliotekami Python stosowanymi w machine learning. Zanim jednak przejdziemy do świata algorytmów uczestnicy nauczą się jak przygotować dane na potrzeby maszynowego uczenia. W końcowej części szkolenia uczestnicy zobaczą w jaki sposób przeprowadzić walidację zbudowanych modeli i wybrać najlepszy algorytm do danego problemu.
Szkolenie prowadzone jest metodą Live Scripting dzięki temu przez cały czas będziesz pracował w Python. To pozwoli Ci przyswoić sobie dobre praktyki programowania w Python i zyskasz gotowe skrypty które będziesz mógł przetestować na swoich danych.
Dla kogo jest to szkolenie?
Szkolenie skierowane jest do osób które zamierzają bądz chcą rozszerzyć i udoskonalić maszynowe uczenie w Python. Praktyczny wymiar szkolenia i aktualna wiedza sprawi że po szkoleniu będziesz potrafił z sukcesem stosować machine learning w praktyce.
Czego się nauczę?
- Zrozumiesz koncepcje i pojęcia wykorzystywane w maszynowym uczeniu
- Nauczysz się efektywnie stosować algorytmy maszynowego uczenia w Python
- Poznasz dostępne modele i narzędzia do prowadzenia analiz
- Nauczysz się wybierać odpowiednie podejście do problemu
- Dowiesz się jak radzić sobie z brakującymi oraz odstającymi obserwacjami
- Poznasz techniki tworzenia zbiorów uczących i testowych
- Nauczysz się prawidłowo przeprowadzić walidację modelu
- Zobaczysz w jaki sposób dobierać zmienne i estymatory
Plan szkolenia
Wprowadzenie do Machine learning
- Podstawy machine learning
- Machine learning vs Statistical learning
- Supervised vs Unsupervised
- Algorytmy maszynowego uczenia
- Klasyfikacja, Asocjacje, Klastrowanie, Wykrywanie Anomalii
- Jak wybrać poprawny algorytm uczenia
- Wykorzystanie maszynowego uczenia
- Zbiory uczące i treningowe
- Walidacja modelu
- Mierzenie jakości prognostycznej algorytmów
- Bias vs Variance – kompromis w machine learning
Machine learning z wykorzystaniem języka Python
- Przygotowanie Python do maszynowego uczenia
- Dystrybucje Python do machine learning
- Biblioteki Python wykorzystywane w maszynowym uczeniu
- NumPy
- SciPy
- Matplotlib
- pandas
- Scikit-learn
- IPython
- Instalacja dodatkowych bibliotek
- Korzystanie z dokumentacji bibliotek
- IDLE
- Praca w Python z wykorzystaniem IPython Notebooks
- Gdzie szukać pomocy i dodatkowych informacji
- Podstawowy obiekt danych – tablice z biblioteki NumPy
- Tablice z pakietu NumPy – zalety i korzyści
- Tworzenie wielowymiarowych tablic
- Indeksowanie elementów tablic
- Manipulacje na danych tablicowych z NumPy
- Statystyka i algebra liniowa – biblioteka SciPy
- Podstawowe statystyki opisowe
- Podstawowe funkcje z algebry liniowej
- Generowanie liczb losowych
- Przetwarzanie danych z biblioteką pandas
- Podstawowe obiekty danych – DataFrame, Series
- Indeksowanie, agregacja, statystyka
- Łączenie danych w formacie DataFrame
- Tablice przestawne
- Importowanie i przechowywanie danych w Python
- Zarządzanie plikami z biblioteką OS
- Import/Eksport plików w formacie CSV, Excel, TXT
- Inne formaty danych
- Podstawy wizualizacji danych w Python
- Biblioteki matplotlib
- Podstawowe wykresy
- Analiza rozkładu zmiennych
- Formatowanie wykresów
Przygotowanie danych
- Przygotowanie danych do maszynowego uczenia
- Brakujące obserwacje – wykrywanie i imputacja
- Nietypowe obserwacje
- Standaryzacja i normalizacja danych
- Binaryzacja
- Przygotowanie danych jakościowych
- Korzystanie z Pipelines dla lepszej organizacji procesu
Prognozowanie danych numerycznych
- Regresja liniowa
- Estymacja i ocena modelu regresji liniowej w Python
- Dobór zmiennych w modelu regresji
- Regresja grzbietowa jako remedium na problemy regresji liniowej
- Regularyzacja modelu
- Drzewa regresji
- Budowa drzew regresji
- Algorytm CART
- Prepruning a Postpruning
Klasyfikacja
- Regresja logistyczna
- Klasyfikacja binarna
- Miary jakości klasyfikacji
- Krzywa ROC
- Tuningowanie modelu
- k-Nearest Neighbors
- Miary podobieństwa
- Algorytm k-NN
- Testowanie klasyfikatora
- Naive Bayes
- Prawdopodobieństwo warunkowe
- Klasyfikacja przy pomocy prawdpodobieństwa warunkowego
- Klasyfikator Naive Bayes
- Ekstrakcja zmiennych z danych tekstowych w Python
- Drzewa decyzyjne
- Uczenie drzew decyzyjnych – C5.0
- Miary doboru zmiennych do modelu
- Boosting i Bagging
- Random Forests
- Ensemble Trees
- Support Vector Machines
- Wprowadzenie do SVM
- Maximum margin classifier
- Support Vectors
- Kernels
- Uczenie SVM w Python
- Sieci neuronowe
- Wprowadzenie do sieci neuronowych
- Od biologi do analizy danych
- Funkcje aktywujące
- Topologia sieci neuronowych
- Uczenie sieci neuronowych w Python
- Walidacja modeli i wybór algorytmu
- Walidacja algorytmów maszynowego uczenia
- K-fold cross validation
- Różne strategie cross validation
- Tuningowanie modeli – strategie grid search
Unsupervised learning
- Klastrowanie – Kmeans i rozwinięcia
- Wykorzystanie Kmeans do klastrowania danych
- Optymalizacja liczby centroidów
- Ocena jakości klastrowania
- Wykorzystanie Kmeans do wykrywania anomalii
- Algorytm Apriori – analiza asocjacji
- Analiza Asocjacji
- Zasada Apriori
- Zastosowania algorytmu w praktyce
- FP-growth
- Budowa i konstrukcja FP-tree
- Wyszukiwanie wzorców za pomocą FP-tree
Dodatkowe tematy
- Redukcja wymiaru z PCA
- Interpretacja graficzna PCA
- Zastosowania PCA
- Singular value decomposition
- Zastosowania SVD
- SVD w Python
- Big data i MapReduce
- MapReduce
- Hadoop
- Maszynowe uczenie i MapReduce