Text Mining w R

Text Mining w R

Szkolenia otwarte

2700 PLN

- Szkolenie, w którym uczestniczą osoby z różnych firm
- Plan szkolenia taki, jak przedstawiony na stronie
- Małe grupy szkoleniowe, 3-10 osób

Szkolenia zamknięte

Cena ustalana indywidualnie

- Szkolenie realizowane na indywidualne zamówienie
- Termin i miejsce szkolenia ustalamy indywidualnie
- Plan szkolenia dostosowany do potrzeb firmy

O szkoleniu

Szkolenie Text Mining w R rozwija umiejętności związane z pozyskaniem, przetwarzaniem, analizą oraz ekstrakcją użytecznych wzorców i informacji z danych tekstowych. Uczestnicy szkolenia otrzymają kompletny zestaw narzędzi i metod które będą mogli wykorzystać w praktyce na własnych danych już pierwszego dnia po szkoleniu.

Duży nacisk został położony na najtrudniejsze kwestie związane z przetwarzaniem nieustrukturyzowanych tekstów do postaci która umożliwia ich wykorzystanie w algorytmach maszynowego uczenia. Warsztatowa forma szkolenia sprzyja zapamiętywaniu i zrozumieniu nawet najtrudniejszych koncepcji text mining ponieważ na bieżąco można obserwować i analizować postępy w pracy z tekstem. Uczestnicy kończą szkolenie z zestawem skryptów, procedur i funkcji w R które po zmianie danych mogą w większości wykorzystać na nowych danych. Dzięki odpowiedniemu ukierunkowaniu przez ekspertów uczestnicy szkolenia mają również możliwość rozwinąć swoje umiejętności efektywnej pracy w środowisku R i poznać najlepsze praktyki.

Szacuje się że ponad 70% dostępnych danych przenoszących istotne dla biznesu informację jest w formie nieustrukturyzowanej z czego większość w formie tekstowej. Gdy dodamy do tego coraz szybszy napływ nowych danych, efektywna analiza danych tekstowych jest coraz cześciej poszukiwaną umiejętnością wśród Analityków danych i Data Scientists.

Text mining to ogólna nazwa na zbiór metod i technik służących do wydobywania praktycznych informacji biznesowych z danych tekstowych. Proces text miningu obejmuje przetwarzanie nieustrukturyzowanego tekstu do postaci danych, najczęściej numerycznych, którymi zasilane są odpowiednie algorytmy uczące. W wyniku procesu uczenia otrzymujemy informacje i wzorce które po ewaluacji stanowi ważne źródło wiedzy i wsparcie procesów decyzyjnych w biznesie. Typowe problemy jakie rozwiązywane są za pomocą text miningu to:

  • Kategoryzacja tekstu
  • Klasyfikacja tekstu
  • Analiza sentymentu
  • Wykrywanie nazw własnych
  • Modelowanie tematyczne

Dla kogo jest to szkolenie?

  • Data Scientist
  • Analitycy danych
  • Inżynierowie danych

Czego się nauczę?

  • Nauczysz się jak pozyskiwać i przetwarzać tekst w systemie R
  • Nauczysz się przygotowywać tekst do postaci danych którymi można zasilić algorytmy maszynowego uczenia
  • Poznasz najważniejsze biblioteki w R wykorzystywane w Text Mining
  • Nauczysz się korzystach z metod statystycznych i algorytmów służących analizie danych tesktowych
  • Zrozumiesz jak analiza danych tekstowych może wesprzeć problemy decyzyjne w biznesie dzięki praktycznym przykładom i case study
  • Nauczysz się praktycznego podejścia do problemu analizy tekstu i jego rozwiązania
  • Poznasz najlepsze praktyki w analizie danych w systemie R

Plan szkolenia

  1. Pierwsze kroki z Text Mining
    • Czym jest text mining?
    • Dlaczego potrzebne jest wyodrębnienie dotatkowej grupy metod?
    • Dlaczego text mining jest nam potrzebny
    • Analiza procesu text mining krok po kroku
    • Jakie narzędzia są nam potrzebne i jak zacząć
    • Text Mining analiza przypadku i aplikacje
    • Przegląd pakietów w R do analizy danych tekstowych między innymi – tidytext, tm, OpenNLP, RTextTools, languageR, koRpus, RKEA, stringr
  2. Importowanie i przechowywanie danych tekstowych w R
    • Ładowanie danych tekstowych z plików PDF, DOC, HTML, XML, JSON HTTP i baz danych
    • Pozyskiwanie danych ze stron internetowych – web scraping
    • Obiekty w R pozwalające na przechowywanie tekstu i metadane o tekście – corpora, corpus
  3. Przygotowanie i czyszczenie danych tekstowych
    • Wykrywanie języka tekstu
    • Manipulacje na tekście z pakietem tidytext
    • Transformacje tekstu z pakietem stringr
    • Przetwarzanie tekstu z wyrażeniami regularnymi w pakiecie stringr
    • Tokenizacja tekstu na słowa
    • Usuwanie słów niewpływających na identyfikację tekstu i nieniosących istotnych treści np. spójniki itp.
    • Tagowanie części mowy
    • Normalizacja tekstu w tym Stemming i lematyzacja odpowiednia dla danego języka oraz synonimy
  4. Konwersja tekstu do postaci macierzy danych
    • Konwersja do postaci bag of words
    • Term Document Matrix
    • Reprezentacja tekstu za pomocą macierzy TF-IDF i prawo Zipfa
    • Model wektorowej reprezentacji słów Word2vec i word embeedings
  5. Wizualizacja danych tekstowych
    • Częstotliwośc występowania słów
    • Asocjacje pomiędzy słowami
    • Sieci słów
    • Dendrogramy
    • Word Clouds
  6. Analiza sentymentu w tekście
    • Biblioteki do analizy sentymentu w R
    • Analiza pozytywnych i negatywnych słów
    • Scoring
    • Emotikony i ich znaczenie w analizie sentymentu
    • Tworzenie słownika
    • Algorytmy do analizy sentymentu
    • Case study
  7. Analiza skupień tekstów i dokumentów
    • Wyszukiwanie podobnych dokumentów za pomocą algorytmów k-means, k-medoid i metod hierarchicznych
    • Wykorzystanie algorytmów w R
    • Miary podobieństwa dokumentów
    • Studium przypadku
  8. Topic Modelling – modelowanie tematyczne
    • Latent Semantic Indexing
    • Latent Dirichlet Allocation
    • Text2vec
    • Studium przypadku
  9. Analiza korespondencji i redukcja wymiaru
    • Redukcja wymiaru problemu z PCA
    • Pakiety FactoMineR oraz Amap
    • Kanoniczna analiza korespondencji
    • Singular value decomposition
  10. Wykrywanie nazw własnych Named entity recognition
    • Ekstrakcja obiektów z tekstu
    • Algorytmy NER
    • Praktyczne zastosowanie NER
  11. Klasyfikacja tekstu i analizy predyktywne
    • Klasyfikacja vs predykcja
    • Klasyfikacja za pomocą algorytmu bayesowskiego
    • Klasyfikacja za pomocą algorytmu SVM
    • Interfejs RtextTools do klasyfikacji tekstu
    • Ewaluacja modeli
    • Studium przypadku

Plan Szkolenia

Plan jest pusty

Instruktorzy


Zapytaj o szkolenie

Jestem zainteresowany/a

Podaj wynik działania:


 

Zapytaj o szkolenie zamknięte

Jestem zainteresowany/a

Podaj wynik działania:


 

Zapytaj o szkolenie otwarte
 

Jestem zainteresowany/a

Podaj wynik działania:


 

Zapytaj o ścieżkę szkoleniową
 

Rodzaj ścieżki:

Preferowany tryb szkolenia:

DziennyPopołudniowyWeekendowy

Podaj wynik działania:


 
Szybki kontakt