Data Science na GPU w Python – Kompleksowe wykorzystanie kart graficznych w analizie danych

Data Science na GPU w Python – Kompleksowe wykorzystanie kart graficznych w analizie danych

Szkolenia otwarte

3 600 PLN

- Szkolenie, w którym uczestniczą osoby z różnych firm
- Plan szkolenia taki, jak przedstawiony na stronie
- Małe grupy szkoleniowe, 3-10 osób

Szkolenia zamknięte

Cena ustalana indywidualnie

- Szkolenie realizowane na indywidualne zamówienie
- Termin i miejsce szkolenia ustalamy indywidualnie
- Plan szkolenia dostosowany do potrzeb firmy

O szkoleniu

Iteruj, Iteruj, Iteruj to jedna z ważniejszych zasad podkreślanych przez Andrew Ng w jego książce Machine Learning Yearning. Algorytmy maszynowego uczenia trenowane są na danych w procesie iteracyjnym. Zamiast zastanawiać się jak zbudować perfekcyjny system możemy rozpocząć od prototypu który następnie będziemy udoskonalać. W ramach prototypowania zbudujemy intuicję którą wykorzystamy do ulepszenia w kolejnej iteracji naszego modelu. Im szybciej będziemy iterować tym szybciej zrobimy postępy na drodze poszukiwania najlepszego modelu.

W świecie analizy danych dominowanym przez duże zbiory danych szybkość iterowania ma ogromne znaczenie. Dotychczasowe implementacje algorytmów maszynowego uczenia wykorzystujące CPU w znaczącym stopniu ograniczają szybkość iterowania a tym samym możliwość otrzymania lepszych modeli w przeciwieństwie do GPU. Dodatkowym czynnikiem mającym wpływ na szybkość całego procesu jest etap przygotowania danych. Wraz z wykorzystaniem zbiorów big data czas i poziom skomplikowania całego procesu znacząco wzrasta.

Szkolenie Data Science na GPU w Python dostarcza rozwiązania powyższych problemów z pomocą GPU. Szkolenie prowadzone jest w oparciu o Python i skupia się na praktycznej implementacji GPU w data science. Uczestnicy szkolenia otrzymują zestaw narzędzi do analizy i modelowania danych z wykorzystaniem kart graficznych. Stworzone wraz z trenerem skrypty pozwalają na szybkie wdrożenie w organizacji. Dzięki kompleksowemu podejściu wszystkie operacje związane z ładowaniem, przetwarzaniem, obliczeniami danych i trenowaniem modeli wykonujemy w pamięci kart graficznych. W programie szkolenia przedstawiamy najważniejsze elementy technologii NVIDIA CUDA i prezentujemy jak ją wykorzystać w Data Science. Dodatkowo  elementem poruszonym na szkoleniu jest wykorzystanie DASK dla Python umożliwiające skalowanie na wiele kart graficznych lub wiele maszyn.

Dla kogo jest to szkolenie?

  • Data Scientist
  • Inżynier Big Data
  • Inżynier Machine Learning
  • Analitycy danych

Czego się nauczę?

  • Poznasz Architekture kart graficznych oraz CUDA
  • Dowiesz się jak wykorzystać kilka kart graficznych oraz klaster maszyn z kartami do obliczeń
  • Nauczysz się wydajnie przetwarzać dane na pamięci karty graficznej nawet do 800x szybciej
  • Poznasz biblioteki Python z pomocą których wykorzystasz technologię NVIDIA CUDA
  • Nauczysz się przekształcać obliczenia z NumPy do GPU
  • Dowiesz się jak przetwarzać dane korzystając ze znanego z Pandas API DataFrame z pomocą Apache Arrow
  • Przygotujesz dane do maszynowego uczenia w całości na GPU
  • Nauczysz się trenować i tuningować algorytmy ml z pomocą GPU
  • Zbudujesz głębokie sieci neuronowe w oparciu o różne biblioteki

Plan szkolenia

I Wykorzystanie GPU w Data Science

  1. Wprowadzenie do architektury GPU – obliczenia równoległe
    1. Compute-Unified Device Architecture CUDA
    2. Obliczenia równoległe GPU
    3. Konstrukcja GPU
    4. Core GPU
    5. Pamięć GPU
    6. Interakcje CPU/GPU
    7. GPU computing in Python
    8. Przegląd bibliotek i środowisk data science do pracy na GPU w Python
    9. Konfiguracja środowiska CUDA do obliczeń na GPU
  2. Skalowalność – praca na wielu kartach graficznych oraz klastrze maszyn z DASK
  3. Koszt tradycyjnego podejścia CPU GPU – serializacja danych

II Przetwarzanie danych na GPU

  1. Apache Arrow kolumnowy format danych
    1. Korzyści z wykorzystania Apache Arrow
    2. Najważniejsze elementy projektu
  2. CuPy – tablice wielowymiarowe i obliczenia numeryczne na GPU
    1. Wielowymiarowy array – ndarray
    2. Konwersja z NumPy ndarray do CuPy ndarray
    3. Reprezentacja danych typu Sparse
    4. Obliczenia w CuPy – ufuncs, Broadcasting, Agregacje
    5. Operacje na tablicach – indeksowanie, sortowaniem łączenie I dzielenie
    6. Ładowanie danych
    7. Tworzenie funkcji pod CUDA
    8. Numba CUDA kernel
  3. Ramki danych na GPU – przetwarzanie danych w formie DataFrame
    1. Przejście z DataFrame na CPU do GPU
    2. Ładowanie danych do format DataFrame w pamięci GPU
    3. Podstawowe struktury – Series, Index, DataFrame
    4. Podstawowe operacje– indeksowanie, wybieranie, filtrowanie, ,mapowanie funkcji, sortowanie, rangowanie, NaN, reindeksowanie, hierarchiczne indeksy, applymap
    5. Praca z brakującymi obserwacjami NULL
    6. Agregacja danych – GroupBy
    7. Przetwarzanie danych tekstowych i ze strukturą czasową
    8. Łączenie danych – Join, append, concat
    9. UDFs – tworzenie funkcji operujących na DataFrame
  4. Przetwarzanie dużych danych na kilku GPU – obliczenia równoległe z DASK
    1. Praca na wielu kartach jednej maszyny lub klastrze maszyn z GPU
    2. Reprezentacja DataFrame w partycjach
    3. Podstawowe obliczenia na danych
    4. Redukcja, Grupowanie, łączenie danych

III Machine Learning na GPU

  1. Przygotowanie danych do uczenia
    1. Przekodowanie zmiennych – Label, Feature Encoding
    2. Standaryzacja i Normalizacja
    3. Imputacja i usuwanie braków danych
    4. Podział danych na zbiór treningowy i testowy
    5. Wyznaczanie miar do walidacji modeli
  2. Algorytmy regresji I klasyfikacji
    1. Regresja liniowa, regularyzacja
    2. Regresja logistyczna
    3. KNN
    4. SVM
    5. ARIMA dla szeregów czasowych
    6. Drzewa klasyfikacji- Random Forest
    7. XGBoost na GPU DF oraz na rozproszonym DF z pomoca DASK
    8. LightGBM
    9. CatBoost
  3. Algorytmy analizy skupień
    1. K-means
    2. DBSCAN
  4. Liniowa i nieliniowa redukcja wymiaru
    1. PCA
    2. SVD
    3. TSNE
  5. Predykcja na GPU modeli bazujących na algorytmach Ensemble takich jak LightGBM, XGBoost
  6. Wizualizacja wyników z wykorzystaniem GPU

IV Deep Learning na GPU

  1. Narzędzia do budowy sieci neuronowych i architektur deep na GPU
    1. DLPack
    2. Chainer
    3. MXNet
    4. PyTorch
    5. Tensorflow
  2. Wprowadzenie do sieci neuronowych i architektur deep
    1. Reprezentacja danych w postaci tensorów
    2. Architektura sieci feed-forward i SGD
    3. Generalizacja metody backpropagation i obliczenie gradientu
    4. Komponenty sieci – Wagi, bias, funkcje aktywujące
    5. Parametry wpływające na uczenie sieci – learning rate, batch, dropout
    6. Tuningowanie sieci i dobór funkcji aktywujących i parametru dropout
  3. Budowa sieci konwolucyjnych w Tensorflow
    1. Konwolucje
    2. Pooling
    3. Case Study: Klasyfikacja obrazów
  4. Budowa sieci rekurencyjnych w PyTorch
    1. LSTM
    2. GRU
    3. Attention
    4. Transformer
    5. Case study: analiza sentymentu
  5. Transfer learning
    1. Adaptacja przytrenowanego modelu do problem
    2. Douczanie model na nowych danych
  6. Generative Adversarial Networks
    1. Generator
    2. Discriminator
    3. DCGAN
    4. Case study: Wykrywanie anomalii siecią GAN w Tensorflow
  7. Autoencoders
    1. Contrastive Divergence
    2. Autoencoders
    3. Variational autoencoders
    4. Case study: Wykrywanie anomalii siecią VA w PyTorch
  8. Deep Reinforcement Learning
    1. DQNs
    2. Deep Generating Agents
    3. Selecting Agents
  9. Wdrożenie modeli na produkcję

Plan Szkolenia

Plan jest pusty

Instruktorzy


Zapytaj o szkolenie

Jestem zainteresowany/a


 

Zapytaj o szkolenie zamknięte

Jestem zainteresowany/a


 

Zapytaj o szkolenie otwarte
 

Jestem zainteresowany/a


 

Zapytaj o ścieżkę szkoleniową
 

Rodzaj ścieżki:

Preferowany tryb szkolenia:

DziennyPopołudniowyWeekendowy

Podaj wynik działania:


 
Co oferujemy na czas trwania pandemii COVID-19?  Dowiedz się więcej →