Szkolenie Text Mining w R rozwija umiejętności związane z pozyskaniem, przetwarzaniem, analizą oraz ekstrakcją użytecznych wzorców i informacji z danych tekstowych. Uczestnicy szkolenia otrzymają kompletny zestaw narzędzi i metod które będą mogli wykorzystać w praktyce na własnych danych już pierwszego dnia po szkoleniu.

Duży nacisk został położony na najtrudniejsze kwestie związane z przetwarzaniem nieustrukturyzowanych tekstów do postaci która umożliwia ich wykorzystanie w algorytmach maszynowego uczenia. Warsztatowa forma szkolenia sprzyja zapamiętywaniu i zrozumieniu nawet najtrudniejszych koncepcji text mining ponieważ na bieżąco można obserwować i analizować postępy w pracy z tekstem. Uczestnicy kończą szkolenie z zestawem skryptów, procedur i funkcji w R które po zmianie danych mogą w większości wykorzystać na nowych danych. Dzięki odpowiedniemu ukierunkowaniu przez ekspertów uczestnicy szkolenia mają również możliwość rozwinąć swoje umiejętności efektywnej pracy w środowisku R i poznać najlepsze praktyki.

Szacuje się że ponad 70% dostępnych danych przenoszących istotne dla biznesu informację jest w formie nieustrukturyzowanej z czego większość w formie tekstowej. Gdy dodamy do tego coraz szybszy napływ nowych danych, efektywna analiza danych tekstowych jest coraz cześciej poszukiwaną umiejętnością wśród Analityków danych i Data Scientists.

Text mining to ogólna nazwa na zbiór metod i technik służących do wydobywania praktycznych informacji biznesowych z danych tekstowych. Proces text miningu obejmuje przetwarzanie nieustrukturyzowanego tekstu do postaci danych, najczęściej numerycznych, którymi zasilane są odpowiednie algorytmy uczące. W wyniku procesu uczenia otrzymujemy informacje i wzorce które po ewaluacji stanowi ważne źródło wiedzy i wsparcie procesów decyzyjnych w biznesie. Typowe problemy jakie rozwiązywane są za pomocą text miningu to:

Kategoryzacja tekstu
Klasyfikacja tekstu
Analiza sentymentu
Wykrywanie nazw własnych
Modelowanie tematyczne

Dla kogo jest to szkolenie?

NauData Scientist
Analitycy danych
Inżynierowie danych

Czego się nauczę?

Po ukończeniu szkolenia:

Nauczysz się jak pozyskiwać i przetwarzać tekst w systemie R
Nauczysz się przygotowywać tekst do postaci danych którymi można zasilić algorytmy maszynowego uczenia
Poznasz najważniejsze biblioteki w R wykorzystywane w Text Mining
Nauczysz się korzystach z metod statystycznych i algorytmów służących analizie danych tesktowych
Zrozumiesz jak analiza danych tekstowych może wesprzeć problemy decyzyjne w biznesie dzięki praktycznym przykładom i case study
Nauczysz się praktycznego podejścia do problemu analizy tekstu i jego rozwiązania
Poznasz najlepsze praktyki w analizie danych w systemie R

Plan szkolenia

1. Pierwsze kroki z Text Mining

Czym jest text mining?
Dlaczego potrzebne jest wyodrębnienie dotatkowej grupy metod?
Dlaczego text mining jest nam potrzebny
Analiza procesu text mining krok po kroku
Jakie narzędzia są nam potrzebne i jak zacząć
Text Mining analiza przypadku i aplikacje
Przegląd pakietów w R do analizy danych tekstowych między innymi – tidytext, tm, OpenNLP, RTextTools, languageR, koRpus, RKEA, stringr

2. Importowanie i przechowywanie danych tekstowych w R

Ładowanie danych tekstowych z plików PDF, DOC, HTML, XML, JSON HTTP i baz danych
Pozyskiwanie danych ze stron internetowych – web scraping
Obiekty w R pozwalające na przechowywanie tekstu i metadane o tekście – corpora, corpus

3. Przygotowanie i czyszczenie danych tekstowych

Wykrywanie języka tekstu
Manipulacje na tekście z pakietem tidytext
Transformacje tekstu z pakietem stringr
Przetwarzanie tekstu z wyrażeniami regularnymi w pakiecie stringr
Tokenizacja tekstu na słowa
Usuwanie słów niewpływających na identyfikację tekstu i nieniosących istotnych treści np. spójniki itp.
Tagowanie części mowy
Normalizacja tekstu w tym Stemming i lematyzacja odpowiednia dla danego języka oraz synonimy

4. Konwersja tekstu do postaci macierzy danych

Konwersja do postaci bag of words
Term Document Matrix
Reprezentacja tekstu za pomocą macierzy TF-IDF i prawo Zipfa
Model wektorowej reprezentacji słów Word2vec i word embeedings

5. Wizualizacja danych tekstowych

Częstotliwośc występowania słów
Asocjacje pomiędzy słowami
Sieci słów
Dendrogramy
Word Clouds

6. Analiza sentymentu w tekście

Biblioteki do analizy sentymentu w R
Analiza pozytywnych i negatywnych słów
Scoring
Emotikony i ich znaczenie w analizie sentymentu
Tworzenie słownika
Algorytmy do analizy sentymentu
Case study

7. Analiza skupień tekstów i dokumentów

Wyszukiwanie podobnych dokumentów za pomocą algorytmów k-means, k-medoid i metod hierarchicznych
Wykorzystanie algorytmów w R
Miary podobieństwa dokumentów
Studium przypadku

8. Topic Modelling – modelowanie tematyczne

Latent Semantic Indexing
Latent Dirichlet Allocation
Text2vec
Studium przypadku

9. Analiza korespondencji i redukcja wymiaru

Redukcja wymiaru problemu z PCA
Pakiety FactoMineR oraz Amap
Kanoniczna analiza korespondencji
Singular value decomposition

10. Wykrywanie nazw własnych Named entity recognition

Ekstrakcja obiektów z tekstu
Algorytmy NER
Praktyczne zastosowanie NER

11. Klasyfikacja tekstu i analizy predyktywne

Klasyfikacja vs predykcja
Klasyfikacja za pomocą algorytmu bayesowskiego
Klasyfikacja za pomocą algorytmu SVM
Interfejs RtextTools do klasyfikacji tekstu
Ewaluacja modeli
Studium przypadku

Text Mining w R

Poziom kursu

Cena za uczestnika

3 050,00 zł netto

Czas trwania

3 dni

Terminarz szkoleń

Taniej w grupie

O szkoleniu