Tidyverse w R– Efektywna praca z danymi dla Data Science

Tidyverse w R– Efektywna praca z danymi dla Data Science

Szkolenia otwarte

1 900 PLN

- Szkolenie, w którym uczestniczą osoby z różnych firm
- Plan szkolenia taki, jak przedstawiony na stronie
- Małe grupy szkoleniowe, 3-10 osób

Szkolenia zamknięte

Cena ustalana indywidualnie

- Szkolenie realizowane na indywidualne zamówienie
- Termin i miejsce szkolenia ustalamy indywidualnie
- Plan szkolenia dostosowany do potrzeb firmy

O szkoleniu

Data Science to ekscytująca dziedzina której celem jest transformacja surowych danych w wiedzę istotną z punktu widzenia biznesu. Import, czyszczenie, transformacja i wizualizacja danych to zestaw kroków bez których nie możemy przeprowadzić procesu data science a które są szalenie ważne z punktu widzenia produktywności i efektywności całego procesu.

Tidyverse to zestaw pakietów w R zaprojektowanych z myślą o Data Science. Stworzone przez Hadleya Wickhama tworzą spójne i efektywne środowisko do pracy z danymi. Wspólna filozofia, składnia i struktura zadecydowały o sukcesie tych pakietów. Krótko po wprowadzeniu pakiety z rodziny Tidyverse stały się standardem wykorzystywanym przez społeczność Data Science na całym świecie.

Przy współpracy z praktykami Data Science zaprojektowaliśmy szkolenie które skupia się na wykorzystaniu pakietu Tidyverse. W formie warsztatu omawiamy i prezentujemy rozwiązania najczęściej spotykanych problemów w pracy z danymi. W szkoleniu wykorzystane zostaną dwa duże zbiory danych surowych które w trakcie szkolenia przygotujesz i przeanalizujesz pod okiem doświadczonego trenera.

Dla kogo jest to szkolenie?

Szkolenie z uwagi na zaawansowany poziom dedykujemy osobom które potrafią programować w R i mają doświadczenie w Data Science. W szczególności szkoleniem powinny zainteresować się osoby na stanowiskach Data Scientists, Analityk danych oraz Inżynier danych.

Czego się nauczę?

  • Zaplanować i wdrożyć efektywny proces przetwarzania danych krok po kroku zaczynając od surowych danych do pierwszych insightów
  • Dowiesz się jak importować i łączyć dane z różnych źródeł za pomocą kilku linijek kodu
  • Poznasz najważniejsze elementy struktury danych tibble zaprojektowanej specjalnie na potrzeby tidyverse
  • Nauczysz się jak poprawnie reprezentować dane w pamięci przy zachowaniu spójności
  • Poznasz najlepsze sposoby transformacji zbioru danych w tym między innymi filtrowania, tworzenia zmiennych, przekodowania, obliczeń w grupach
  • Nauczysz się sprawnie pracować na różnych typach danych w szczególności factor, string i date time
  • Poznasz efektywne funkcje programistyczne pozwalające wykonać powtarzalne zadania bez wykorzystania pętli
  • Dowiesz się jak wyodrębnić informacje z danych za pomocą efektownych wizualizacji korzystając z ggplot2

Plan szkolenia

  1. Omówienie zadań w Data Science i wprowadzenie do tidyverse
    • Jak wykorzystać najlepsze pakiety w R do rozwiązania wielu problemów w Data Science?
    • Reprezentacja danych i wspólne API wielu pakietów w tidyverse
    • Przedstawienie pakietów z tidyverse:
      • Import danych – readr, readxl, haven, jsonlite, xml2, httr, rvest, DBI
      • Struktura danych – tibble
      • Przetwarzanie danych – dplyr, tidyr, stringr, forcats,lubridate, hms, blob
      • Eksploracja i wizualizacja – ggplot2
      • Programowanie – purr, magrittr, glue
  1. Importowanie i łączenie danych – readr, readxl, haven, jsonlite, xml2, httr, rvest, DBI
    • Importowanie danych w formie tabelarycznej – csv, tsv, fwf, txt
    • Importowanie danych z arkusza kalkulacyjnego – xls, xlsx
    • Importowanie danych z źródeł – JSON, XML, Web API, Web scraping
    • Łączenie z bazami danych SQL, NoSQL
    • Łączenie tablic danych za pomocą klucza – mutate(), inner_join(), outer_join()
    • Łączenie tablic po obserwacjach – semi_join(), anti_join()
    • Operacje na zbiorach – intersect(), union(), setdiff()
    • Rozwiązywanie problemów przy łączeniu danych
  2. Struktura danych – tibble
    • Tibble – nowy data frame dla tidyverse
    • Różnice pomiędzy tibble a data frame
    • Tworzenie i konwersja na format tibble
    • Zalety korzystania z tibble
  3. Porządkowanie danych – tidyr
    • Sposoby organizacji i reprezentacji danych
    • Koncepcja tidy data i najlepszy sposób reprezentacji danych
    • spread() – zmiana reprezentacji tabeli z długiej na szeroką
    • gather() – łączenie kolumn dla tej samej zmiennej w jedną
    • separate() – ekstrakcja danych z kolumny z wieloma wartościami
    • unite() – łączenie danych w wielu kolumn w jedną
  4. Przetwarzanie i przygotowanie tabeli danych – dplyr
    • Filtrowanie wartości – filter()
    • Przegrupowanie wartości – arrange()
    • Wybór zmiennych – select()
    • Dodawanie nowy zmiennych – mutate(), transmute()
    • Operacje na grupach – groupby()
    • Tabele przestawne – summary()
    • Rozszerzenia funkcji dplyr – _at, _all, _if, _each
  5. Przetwarzanie i przygotowanie zmiennych
    • stringr – praca z danymi tekstowymi (strings)
    • forcats – praca z danymi jakościowymi wielomianowymi (factors)
    • lubridate – praca z danymi typu data, data-czas
  6. Programowanie funkcyjne – purr
    • Przetwarzanie potokowe z magrittr pipe %>% oraz %>T%
    • Tworzenie czytelnego kodu z pomocą rodziny funkcji map()
    • Rodzina funkcji walk
    • Inne użyteczne funkcje zastępujące pętle ja keep(), discard() some(), every(), detect()
  7. Wizualizacja z ggplot2
    • Deklaratywna koncepcja tworzenia wykresów
    • Mapowanie danych na wykresie za pomocą aesthetics
    • Tworzenie wykresów dla pogrupowanych danych
    • Reprezentacja danych na wykresie za pomocą geoms
    • System współrzędnych i jego formatowanie
  8. Podsumowanie
    • Dobre praktyki czyli jak połączyć wszystkie elementy i zbudować elegancki pipeline
    • EDA case study

Plan Szkolenia

Plan jest pusty

Instruktorzy


Zapytaj o szkolenie

Jestem zainteresowany/a


 

Zapytaj o szkolenie zamknięte

Jestem zainteresowany/a


 

Zapytaj o szkolenie otwarte
 

Jestem zainteresowany/a


 

Zapytaj o ścieżkę szkoleniową
 

Rodzaj ścieżki:

Preferowany tryb szkolenia:

DziennyPopołudniowyWeekendowy

Podaj wynik działania:


 
Szybki kontakt