ProgramowaniePythonStatystyka

Przetwarzanie danych i tworzenie powtarzalnych analiz w Python

20 - 22 maj 2024

Online

2 950,00 zł netto / osobę
Nie pasuje Ci żaden termin? Napisz do nas!
Zapisz więcej osób

Taniej w grupie

  • 3 osoby - 10% zniżki
  • 4 osoby - 15% zniżki
  • 5 osób - 20% zniżki
  • 6 osób - 25% zniżki
  • 7 osób - 30% zniżki
  • O szkoleniu

    Kluczowym elementem w procesie Data Science jest posiadanie odpowiednio przygotowanych danych. Jakość analiz oraz czas potrzebny do jej przeprowadzenia jest zdeterminowany przez proces przetwarzania danych. Dlatego umiejętność sprawnej i efektywnej pracy z danymi odgrywa dużą rolę w powodzeniu projektu. Dzięki temu szkoleniu nauczysz się jak załadować i przygotować dane w jednym z najpopularniejszych obecnie języków Data Science.

    W trakcie szkolenia poznasz najlepsze biblioteki i szereg funkcji języka Python które sprawiają że przygotowanie danych do analiz już nigdy nie sprawi Ci trudności. Nauczysz się przygotowywać powtarzalne analizy i interaktywne raporty. Nowatorska metoda szkolenia ułatwi zrozumienie nawet najtrudniejszych koncepcji na praktycznych przykładach. Zdobytą wiedzę utrwalisz sobie za pomocą szeregu ćwiczeń które dostarczą Ci rozwiązań do najczęściej spotykanych problemów.

    Dla kogo jest to szkolenie?

    Szkolenie z Przetwarzania danych w Python jest przeznaczone dla osób które na co dzień w swej pracy zajmują się przetwarzaniem danych na potrzeby analizy danych.

    Czego się nauczę?

    • Efektywnie wykorzystać język Python do przetwarzania danych
    • Używać interaktywnego środowiska Ipython i tworzyć Notebooki łącząc analizę z kodem Python
    • Korzystać z najlepszych funkcji do obliczeń na danych z pakietu NumPy
    • Poznasz najlepszą bibliotekę do pracy z danymi – pandas
    • Dowiesz się jak najlepiej importować dane z różnych źródeł i zapisywać gotowe dane
    • Nauczysz się tworzyć strumieniowy proces czyszczenia, łączenia, transformacji i modyfikacji danych
    • Poznasz metody rozwiązywania problemów z brakującymi obserwacjami, wykrywaniem obserwacji nietypowych czy dyskretyzacją
    • Poznasz funkcje pozwalające na operacje na grupach i agregacje danych
    • Wykorzystasz odpowiednie funkcje ułatwiające efektywną pracę na szeregach czasowych
    • Poznasz bibliotekę matplotlib i najważniejsze funkcjonalności do tworzenia wizualizacji danych oraz dodatkowe funkcje z pakietu pandas
    • Nauczysz się tworzyć interaktywne powtarzalne raporty w formie plików html
    • Python jako język analizy danych
    • Proces analizy danych – ekstrakcja, przetwarzanie, eksploracja i wizualizacja danych, modelowanie, walidacja, wdrożenie.
    • Natura i typy danych z jakimi mierzą się analitycy
    • Najważniejsze biblioteki Python – NumPy, pandas, matplotlib IPython SciPy
    • Dystrybucje Python – Anaconda, Enthought Canopy, Python(x,y)
    • IDE dla Python – Shell, Spyder, Eclipse(pyDev) Sublime
    • Rekomendacje literatury do dalszej nauki
    • Praca z IPython Shell oraz Jupyter Notebook
    • Uzyskiwanie pomocy i dokumentacja, eksploracja modułów
    • Korzystanie ze środowiska – uzupełnianie składni, skróty klawiaturowe, wyjątki, komendy %run, %paste, %timeit, %magic
    • Korzystanie z historii poleceń – wyszukiwanie, wykorzystywanie poleceń z historii, tłumienie wyników
    • Zmienne numeryczne
    • Zmienne tekstowe
    • Funkcje – używanie i tworzenie własnych
    • Kontenery danych – lista, krotka, słownik i zbiór
    • Powtarzanie instrukcji – pętla for
    • Korzyści i charakterystyka biblioteki NumPy
    • Najważniejsze typy danych w Python
    • Wielowymiarowe tablice ndarray – tworzenie, podstawowe operacje, indeksowanie, manipulacje
    • Obliczenia w NumPy – zastąpienie pętli funkcjami uniwersalnymi ufuncs, eksploracja funkcji, Broadcasting, Agregacje
    • Operacje na tablicach – indeksowanie różnymi metodami, sortowanie, iterowanie, łączenie i dzielenie tablic
    • Ustrukturyzowane tablice
    • Ładowanie i zapisywanie danych z/do plików – pliki binarne i tekstowe
    • Obliczenia na danych – liniowa algebra, generowanie liczb losowych
    • Podstawowe struktury danych – Series, DataFrame, Index
    • Podstawowe funkcjonalności pakietu – indeksowanie, wybieranie, filtrowanie, ,mapowanie funkcji, sortowanie, rangowanie, NaN, reindeksowanie
    • Eksploracja i podstawowe statystyki dla danych – statystyki opisowe, korelacja, kowariancja, wartości unikalne, zliczanie
    • Brakujące obserwacje – filtrowanie, zastępowanie brakujących obserwacji, operacje na wartościach NULL
    • Hierarchiczne indeksy – Multiindex, Levels, metody tworzenia oraz operacje indeksowania, obliczanie statystyk na różnych poziomach
    • Operacje na danych tekstowych i szeregach czasowych
    • Wydajne funkcje dla dużych zbiorów danych – eval() i query()
    • Narzędzia I/O API
    • Ingerencja w proces ładowania danych
    • Import/Eksport danych z plików płaskich – pliki txt, csv
    • Import/Eksport danych z plików typu JSON, HTML, XML HDF5
    • Import/Eksport danych z plików typu xls
    • Import/Eksport danych z baz typu SQL
    • Dostęp do danych w chmurze i publicznych serwisach
    • Merge, Join – Łączenie danych z różnych zbiorów po indeksie, wymiarze
    • Zmiana kształtu zbioru danych – modyfikacja z hierarchicznym indeksem
    • Tabele przestawne – zmiana formatu long na wide
    • Usuwanie duplikatów, mapowanie wartości, zamiana wartości
    • Dyskretyzacja i binning, wykrywanie i usuwanie obserwacji nietypowych
    • Próbkowanie, przekodowywanie, tworzenie zmiennych binarnych
    • Wyrażenia regularne – transformacje na danych typu string, funkcje wektorowe i przekształcenia
    • GroupBy – iterowanie po grupach, wybór kolumn
    • Grupowanie z danymi typu Dict, Series, funkcjami i indeksem
    • Agregacja danych względem kolumn
    • Split-Apply – operacje i transformacje na grupach
    • Tablice przestawne
    • Crosstab
    • Typy danych i narzędzia do pracy z czasem – obiekty datetime, day, time, timestamp, time
    • DatetimeIndex – tworzenie szeregów czasowych o wybranej częstotliwości
    • Generowanie zakresu dat, częstotliwości, opóźnianie, przyspieszanie
    • Strefy czasowe, lokalizacja i konwersja
    • Obliczenia na szeregach czasowych, konwersja częstotliwości
    • Podstawy generowania wykresów z matplotlib, style, zapisywanie grafiki
    • Wykres liniowy – modyfikacja koloru, stylu linii, osi
    • Wykres punktowy
    • Wykres gęstości, histogram i konturowy
    • Modyfikacja legendy, kolorów, dodawanie tekstu i adnotacji
    • Podwykresy
    • Podstawowe funkcje i wykresy z pakietu pandas
    • Plotly
    • Bokeh
    • Leaflet
    • Ggplot
    • Datapane
    • Plotly
    • Automatyczne generowanie raportów
    • Automatyczna wysyłka raportów mailem