Przetwarzanie danych w Python

Przetwarzanie danych w Python

Szkolenia otwarte

2200 PLN

- Szkolenie, w którym uczestniczą osoby z różnych firm
- Plan szkolenia taki, jak przedstawiony na stronie
- Małe grupy szkoleniowe, 3-10 osób

Szkolenia zamknięte

Cena ustalana indywidualnie

- Szkolenie realizowane na indywidualne zamówienie
- Termin i miejsce szkolenia ustalamy indywidualnie
- Plan szkolenia dostosowany do potrzeb firmy

O szkoleniu

Kluczowym elementem w procesie Data Science jest posiadanie odpowiednio przygotowanych danych. Jakość analiz oraz czas potrzebny do jej przeprowadzenia jest zdeterminowany przez proces przetwarzania danych. Dlatego umiejętnośc sprawnej i efektywnej pracy z danymi odgrywa dużą rolę w powodzeniu projektu. Dzięki temu szkoleniu nauczysz się jak załadować i przygotować dane w jednym z najlepszych obecnie języków Data Science.

W trakcie szkolenia poznasz najlepsze biblioteki i szereg funkcji Python które sprawiają że przygotowanie danych do analiz już nigdy nie sprawi Ci trudności. Nowatorska metoda szkolenia ułatwi zrozumienie nawet najtrudniejszych koncepcji na praktycznych przykładach. Zdobytą wiedzę utrwalisz sobie za pomocą szeregu szkoleń które dostarczą Ci rozwiązań do najczęściej spotykanych problemów.

Dla kogo jest to szkolenie?

Szkolenie z Przetwarzania danych w Python jest przeznaczone dla osób które na co dzień w swej pracy zajmują się przetwarzaniem danych na potrzeby analizy danych.

Czego się nauczę?

  • Efektywnie wykorzystać język Python do przetwarzania danych
  • Używać interaktywnego środowiska Ipython i tworzyć Notebooki łącząc analizę z kodem Python
  • Korzystać z najlepszych funkcji do obliczeń na danych z pakietu NumPy
  • Poznasz najlepszą bibliotekę do pracy z danymi – pandas
  • Dowiesz się jak najlepiej importować dane z różnych źródeł i zapisywać gotowe dane
  • Nauczysz się tworzyć strumieniowy proces czyszczenia, łączenia, transformacji i modyfikacji danych
  • Poznasz metody rozwiązywania problemów z brakującymi obserwacjami, wykrywaniem obserwacji nietypowych czy dyskretyzacją
  • Poznasz funkcje pozwalające na operacje na grupach i agregacje danych
  • Wykorzystasz odpowiednie funkcje ułatwiające efektywną pracę na szeregach czasowych
  • Poznasz bibliotekę matplotlib i najważniejsze funkcjonalności do tworzenia wizualizacji danych oraz dodatkowe funkcje z pakietu pandas

Plan szkolenia

  1. Wprowadzenie do Przetwarzania danych w Python
    • Python jako język analizy danych
    • Proces analizy danych – ekstrakcja, przetwarzanie, eksploracja i wizualizacja danych, modelowanie, walidacja, wdrożenie.
    • Natura i typy danych z jakimi mierzą się analitycy
    • Najważniejsze biblioteki Python – NumPy, pandas, matplotlib IPython SciPy
    • Dystrybucje Python – Anaconda, Enthought Canopy, Python(x,y)
    • IDE dla Python – Shell, Spyder, Eclipse(pyDev) Sublime
    • Rekomendacje literatury do dalszej nauki
  1. IPython – interaktywne środowisko do obliczeń
    • Praca z IPython Shell oraz Jupyter Notebook
    • Uzyskiwanie pomocy i dokumentacja, eksploracja modułów
    • Korzystanie ze środowiska – uzupełnianie składni, skróty klawiaturowe, wyjątki, komendy %run, %paste, %timeit, %magic
    • Korzystanie z historii poleceń – wyszukiwanie, wykorzystywanie poleceń z historii, tłumienie wyników
    • HTML Notebook
    • Debugowanie kodu i obsługa błędów z %xmode
    • Dobre praktyki tworzenia programów z IPython
  1. Podstawy NumPy – Tablice i wektoryzacja obliczeń
    • Korzyści i charakterystyka biblioteki NumPy
    • Najważniejsze typy danych w Python
    • Wielowymiarowe tablice ndarray – tworzenie, podstawowe operacje, indeksowanie, manipulacje
    • Obliczenia w NumPy – zastąpienie pętli funkcjami uniwersalnymi ufuncs, eksploracja funkcji, Broadcasting, Agregacje
    • Operacje na tablicach – indeksowanie różnymi metodami, sortowanie, iterowanie, łączenie i dzielenie tablic
    • Ustrukturyzowane tablice
    • Ładowanie i zapisywanie danych z/do plików – pliki binarne i tekstowe
    • Obliczenia na danych – liniowa algebra, generowanie liczb losowych
  1. Pandas –biblioteka Python do manipulacji, analizy i eksploracji danych
    • Podstawowe struktury danych – Series, DataFrame, Index
    • Podstawowe funkcjonalności pakietu – indeksowanie, wybieranie, filtrowanie, ,mapowanie funkcji, sortowanie, rangowanie, NaN, reindeksowanie
    • Eksploracja i podstawowe statystyki dla danych – statystyki opisowe, korelacja, kowariancja, wartości unikalne, zliczanie
    • Brakujące obserwacje – filtrowanie, zastępowanie brakujących obserwacji, operacje na wartościach NULL
    • Hierarchiczne indeksy – Multiindex, Levels, metody tworzenia oraz operacje indeksowania, obliczanie statystyk na różnych poziomach
    • Operacje na danych tekstowych i szeregach czasowych
    • Wydajne funkcje dla dużych zbiorów danych – eval() i query()
  1. Import i Eksport danych
    • Narzędzia I/O API
    • Ingerencja w proces ładowania danych
    • Import/Eksport danych z plików płaskich – pliki txt, csv
    • Import/Eksport danych z plików typu JSON, HTML, XML HDF5
    • Import/Eksport danych z plików typu xls
    • Import/Eksport danych z baz typu SQL
    • Dostęp do danych w chmurze i publicznych serwisach
  1. Przetwarzanie danych – Czyszczenie, Transformacja, Łączenie, Modyfikacja
    • Merge, Join – Łączenie danych z różnych zbiorów po indeksie, wymiarze
    • Zmiana kształtu zbioru danych – modyfikacja z hierarchicznym indeksem
    • Tabele przestawne- zmiana formatu long na wide
    • Usuwanie duplikatów, mapowanie wartości, zamiana wartości
    • Dyskretyzacja i binning, wykrywanie i usuwanie obserwacji nietypowych
    • Próbkowanie, przekodowywanie, tworzenie zmiennych binarnych
    • Wyrażenia regularne – transformacje na danych typu string, funkcje wektorowe i przekształcenia
  1. Agregacja danych i operacje na grupach
    • GroupBy – iterowanie po grupach, wybór kolumn
    • Grupowanie z danymi typu Dict, Series, funkcjami i indeksem
    • Agregacja danych względem kolumn
    • Split-Apply – operacje i transformacje na grupach
    • Tablice przestawne
    • Crosstab
  1. Szeregi czasowe
    • Typy danych i narzędzia do pracy z czasem – obiekty datetime, day, time, timestamp, time
    • DatetimeIndex – tworzenie szeregów czasowych o wybranej częstotliwości
    • Generowanie zakresu dat, częstotliwości, opóźnianie, przyspieszanie
    • Strefy czasowe, lokalizacja i konwersja
    • Obliczenia na szeregach czasowych, konwersja częstotliwości
  1. Wizualizacja danych z matplotlib i pandas
    • Podstawy generowania wykresów z matplotlib, style, zapisywanie grafiki
    • Wykres liniowy – modyfikacja koloru, stylu linii, osi
    • Wykres punktowy
    • Wykres gęstości, histogram i konturowy
    • Modyfikacja legendy, kolorów, dodawanie tekstu i adnotacji
    • Podwykresy
    • Podstawowe funkcje i wykresy z pakietu pandas

Plan Szkolenia

Plan jest pusty

Instruktorzy


Zapytaj o szkolenie

Jestem zainteresowany/a


 

Zapytaj o szkolenie zamknięte

Jestem zainteresowany/a


 

Zapytaj o szkolenie otwarte
 

Jestem zainteresowany/a


 
Szybki kontakt