
Tidyverse w R– Efektywna praca z danymi dla Data Science
Szkolenia otwarte
1 900 PLN
Szkolenia zamknięte
Cena ustalana indywidualnie
O szkoleniu
Data Science to ekscytująca dziedzina której celem jest transformacja surowych danych w wiedzę istotną z punktu widzenia biznesu. Import, czyszczenie, transformacja i wizualizacja danych to zestaw kroków bez których nie możemy przeprowadzić procesu data science a które są szalenie ważne z punktu widzenia produktywności i efektywności całego procesu.
Tidyverse to zestaw pakietów w R zaprojektowanych z myślą o Data Science. Stworzone przez Hadleya Wickhama tworzą spójne i efektywne środowisko do pracy z danymi. Wspólna filozofia, składnia i struktura zadecydowały o sukcesie tych pakietów. Krótko po wprowadzeniu pakiety z rodziny Tidyverse stały się standardem wykorzystywanym przez społeczność Data Science na całym świecie.
Przy współpracy z praktykami Data Science zaprojektowaliśmy szkolenie które skupia się na wykorzystaniu pakietu Tidyverse. W formie warsztatu omawiamy i prezentujemy rozwiązania najczęściej spotykanych problemów w pracy z danymi. W szkoleniu wykorzystane zostaną dwa duże zbiory danych surowych które w trakcie szkolenia przygotujesz i przeanalizujesz pod okiem doświadczonego trenera.
Dla kogo jest to szkolenie?
Szkolenie z uwagi na zaawansowany poziom dedykujemy osobom które potrafią programować w R i mają doświadczenie w Data Science. W szczególności szkoleniem powinny zainteresować się osoby na stanowiskach Data Scientists, Analityk danych oraz Inżynier danych.
Czego się nauczę?
- Zaplanować i wdrożyć efektywny proces przetwarzania danych krok po kroku zaczynając od surowych danych do pierwszych insightów
- Dowiesz się jak importować i łączyć dane z różnych źródeł za pomocą kilku linijek kodu
- Poznasz najważniejsze elementy struktury danych tibble zaprojektowanej specjalnie na potrzeby tidyverse
- Nauczysz się jak poprawnie reprezentować dane w pamięci przy zachowaniu spójności
- Poznasz najlepsze sposoby transformacji zbioru danych w tym między innymi filtrowania, tworzenia zmiennych, przekodowania, obliczeń w grupach
- Nauczysz się sprawnie pracować na różnych typach danych w szczególności factor, string i date time
- Poznasz efektywne funkcje programistyczne pozwalające wykonać powtarzalne zadania bez wykorzystania pętli
- Dowiesz się jak wyodrębnić informacje z danych za pomocą efektownych wizualizacji korzystając z ggplot2
Plan szkolenia
- Omówienie zadań w Data Science i wprowadzenie do tidyverse
- Jak wykorzystać najlepsze pakiety w R do rozwiązania wielu problemów w Data Science?
- Reprezentacja danych i wspólne API wielu pakietów w tidyverse
- Przedstawienie pakietów z tidyverse:
- Import danych – readr, readxl, haven, jsonlite, xml2, httr, rvest, DBI
- Struktura danych – tibble
- Przetwarzanie danych – dplyr, tidyr, stringr, forcats,lubridate, hms, blob
- Eksploracja i wizualizacja – ggplot2
- Programowanie – purr, magrittr, glue
- Importowanie i łączenie danych – readr, readxl, haven, jsonlite, xml2, httr, rvest, DBI
- Importowanie danych w formie tabelarycznej – csv, tsv, fwf, txt
- Importowanie danych z arkusza kalkulacyjnego – xls, xlsx
- Importowanie danych z źródeł – JSON, XML, Web API, Web scraping
- Łączenie z bazami danych SQL, NoSQL
- Łączenie tablic danych za pomocą klucza – mutate(), inner_join(), outer_join()
- Łączenie tablic po obserwacjach – semi_join(), anti_join()
- Operacje na zbiorach – intersect(), union(), setdiff()
- Rozwiązywanie problemów przy łączeniu danych
- Struktura danych – tibble
- Tibble – nowy data frame dla tidyverse
- Różnice pomiędzy tibble a data frame
- Tworzenie i konwersja na format tibble
- Zalety korzystania z tibble
- Porządkowanie danych – tidyr
- Sposoby organizacji i reprezentacji danych
- Koncepcja tidy data i najlepszy sposób reprezentacji danych
- spread() – zmiana reprezentacji tabeli z długiej na szeroką
- gather() – łączenie kolumn dla tej samej zmiennej w jedną
- separate() – ekstrakcja danych z kolumny z wieloma wartościami
- unite() – łączenie danych w wielu kolumn w jedną
- Przetwarzanie i przygotowanie tabeli danych – dplyr
- Filtrowanie wartości – filter()
- Przegrupowanie wartości – arrange()
- Wybór zmiennych – select()
- Dodawanie nowy zmiennych – mutate(), transmute()
- Operacje na grupach – groupby()
- Tabele przestawne – summary()
- Rozszerzenia funkcji dplyr – _at, _all, _if, _each
- Przetwarzanie i przygotowanie zmiennych
- stringr – praca z danymi tekstowymi (strings)
- forcats – praca z danymi jakościowymi wielomianowymi (factors)
- lubridate – praca z danymi typu data, data-czas
- Programowanie funkcyjne – purr
- Przetwarzanie potokowe z magrittr pipe %>% oraz %>T%
- Tworzenie czytelnego kodu z pomocą rodziny funkcji map()
- Rodzina funkcji walk
- Inne użyteczne funkcje zastępujące pętle ja keep(), discard() some(), every(), detect()
- Wizualizacja z ggplot2
- Deklaratywna koncepcja tworzenia wykresów
- Mapowanie danych na wykresie za pomocą aesthetics
- Tworzenie wykresów dla pogrupowanych danych
- Reprezentacja danych na wykresie za pomocą geoms
- System współrzędnych i jego formatowanie
- Podsumowanie
- Dobre praktyki czyli jak połączyć wszystkie elementy i zbudować elegancki pipeline
- EDA case study