
Przetwarzanie danych w R
Szkolenia otwarte
1900 PLN
Szkolenia zamknięte
Cena ustalana indywidualnie
O szkoleniu
Przetwarzanie danych to proces, w którym modyfikujemy dane surowe do postaci odpowiedniej do modelowania i wizualizacji. Jest to nieodłączna część każdej analizy i pochłania ona najwięcej czasu i pracy. Dzięki temu szkoleniu nauczysz się w jaki sposób efektywnie przetwarzać i zarządzać danymi w R wykorzystując najnowsze biblioteki m.in. dplyr, tidyr, reshape2, lubridate.
Szkolenie prowadzone jest metodą Live script dzięki czemu cały czas będziesz pracował w R i lepiej przyswoisz sobie techniki programowania – tworząc prosty, łatwy do modyfikacji i wydajny skrypt do powtarzalnych analiz. Poprzez szereg ćwiczeń utrwalisz zdobytą wiedzę i zyskasz kompetencje poszukiwane na rynku pracy.
Dla kogo jest to szkolenie?
Szkolenie skierowane jest do wszystkich osób które pracują w R i chcą rozszerzyć swoją wiedzę z przetwarzania danych.
Czego się nauczę?
- Po ukończeniu szkolenia, uczestnik będzie potrafił:
- Efektywnie wykorzystywać obiekty w R
- Importować dane z plików i baz danych
- Adresować dane z pomocą indeksów
- Przeprowadzać obliczenia w grupach
- Łączyć i modyfikować tablice danych
- Korzystać z funkcji pakietów dplyr, tidyr, reshape2
- Tworzyć przejrzyste i efektywne skrypty
- Automatyzować wykonanie skryptów i raportów
Plan szkolenia
- Dane w R
- Typy i klasy danych
- Przechowywanie danych w R
- Struktura obiektów w R
- Konswersja obiektów
- Brakujące obserwacje
- Przegląd pakietów do przetwarzania danych – tidyverse
- dplyr
- tibble
- stringr
- tidyr
- purrr
- Podstawowe obiekty danych
- Liczby i wektory – tworzenie, łączenie, obliczenia
- Macierze i tablice – tworzenie łączenie obliczenia
- Factor – tworzenie, manipulacje
- Listy – agregacja, tworzenie, manipulacje
- Data frame – tworzenie, manipulacje
- Tibble
- Eksport i import danych z plików – pakiet readr
- Importowanie danych z formatu – TXT
- Importowanie danych z formatu – CSV
- Importowanie danych z formatu – XLS
- Praca na danych binarnych
- Eksportowanie danych do plików
- Eksport i import z baz danych
- Podstawy SQL
- Przetwarzanie danych w R za pomocą SQL
- Korzystanie z pakietu ODBC, DBI
- Łączenie z bazą danych
- Przetwarzanie zapytań
- Eksport danych do bazy
- Zaawansowane agregacje
- Indeksy i subskrypty – wyodrębnianie danych
- Podstawy indeksowania
- Indeksowanie numeryczne
- Indeksowanie tekstowe
- Indeksowanie logiczne
- Indeksowanie macierzy, tablic, list, data frame
- Specjalne funkcje z pakietu dplyr
- Manipulacje na danych tekstowych – pakiet stringr
- Dane tekstowe a obiekty w R
- Podstawowe manipulacje
- Reprezentacja i kodowanie
- Łączenie tesktu i wyników numerycznych
- Przegląd funkcji
- Przetwarzanie danych tekstowych z pakietem stringr
- Wyrażenia regularne w R
- Wyszukiwanie wzorców w tekście
- Zastępowanie wzorców w tekście
- Lokalizowanie wzorców w tekście
- Dzielenie tekstu
- Przykłady zastosowań
- Data i czas
- Pakiet lubridate
- Agregacja danych
- Tworzenie raportów i tabel przestawnych za pomocą pakietów dplyr i tidyr
- Wykonywanie operacji na grupach
- Przekształcenia zbioru danych
- Pakiet tidyr m.in gather, spread, unite, separate
- Pakiet dplyr
- Grupowanie danych
- Filtrowanie danych
- Operacje na zmiennych
- Tworzenie nowych zmiennych
- Wyodrębnianie zmiennych, podzbiorów
- Przekształcenia zmiennych
- Przekodowanie zmiennych
- Pakiet forcats – praca z danymi typu factor
- Łączenie zbiorów danych – dplyr
- Łączenie zbiorów danych
- Zaawansowane przykłady łączenia
- Wyodrębnianie części wspólnej, rozłącznej
- Dodawanie obserwacji do tablicy danych
- Łączenie przez dodawanie zmiennych
- Automatyzacja pracy z R
- Automatyzacja skryptów poprzez zadania windows
- Powtarzalne analizy – automatyzacja raportów z Rmarkdown
- Dobre praktyki
- Przetwarzanie dużych zbiorów danych
- Przegląd pakietów do przetwarzania dużych zbiorów danych
- Strategie big data w R
- Hadoop i MapReduce
- Integracja Hadoop z R