NLP

VADER – czyli jak za pomocą reguł ocenić zabarwienie tekstu

VADER to Valence Aware Dictionary and sEntiment Reasoner. Rozbijmy to na części pierwsze Valence Aware Dictionary Valence Aware Dictionary to w wolnym tłumaczeniu – słownik ze świadomością „zabarwienia”. Czyli mamy wcześniej przygotowany słownik wyrazów z ich oceną. Przykładowo: Słowo Jak pozytywne jest słowo Jak negatywne jest słowo Jak neutralne jest słowo Jakie jest ogółem Dobry …

VADER – czyli jak za pomocą reguł ocenić zabarwienie tekstu Czytaj dalej »

Czym jest norma wektora?

Norma wektora to po prostu jego długość (czasami nazywana wielkością). Rodzaje norm – sposoby obliczania długości Istnieją różne sposoby na obliczanie długości wektora. Jedne za bardziej popularnych to norma L1 i norma L2. Norma L1 Aby obliczyć długość wektora za pomocą normy L1:1. Bierzemy każdą wartość wektora2. Wyznaczamy jej wartość bezwzględną3. Sumujemy wszystkie wartościCo się …

Czym jest norma wektora? Czytaj dalej »

word2vec – czyli kontekst ma znaczenie

word2vec jest to nazwa techniki za pomocą której możliwe jest stworzenie przestrzeni wektorów, w której każde słowo jest reprezentowane za pomocą oddzielnego wektora (czyli za pomocą liczb – dzięki temu komputery mogą to ogarnąć 😉 ). Idea Idea word2vec jest następująca – słowa nabierają znaczenia w kontekście innych słów. Przykładowo słowo „brązowy” nie mówi nam …

word2vec – czyli kontekst ma znaczenie Czytaj dalej »

TFIDF – wektoryzacja biorąca pod uwagę ważność słów

TF (term frequency) IDF (Inverse Document Frequency) Term Frequency Przykład Dokument A: Dokument B: Budowanie bazy słownictwa Budowanie wektora dla „Ala lubi psy i koty” Ala lubi psy i koty Jacek słonie 1/5 1/5 1/5 1/5 1/5 0 0 czyli nasz wektor to: Budowanie wektora dla „Jacek lubi psy i koty i słonie” Ala lubi …

TFIDF – wektoryzacja biorąca pod uwagę ważność słów Czytaj dalej »

Obliczanie podobieństwa dokumentów

Najbardziej popularne sposoby na obliczanie podobieństw dokumentów to: kosinus (cosine similarity) i odległość euklidesowa (euclidian distance). Podobieństwo kosinusowe (cosine similarity) Jest to po prostu obliczanie kąta pomiędzy dwoma punktami w przestrzeni względem centrum przestrzeni: Wzór Przykład Weźmy dla przykładu wektory z wpisu Bag of Words: Obliczanie iloczynu wektorów Obliczanie długości wektorów Obliczanie kosinusa Podobieństwo odległość …

Obliczanie podobieństwa dokumentów Czytaj dalej »

Bag Of Words – prosty sposób na wektoryzację

Technika wektoryzacji zwana Bag Of Words polega na prostym zliczeniu wystąpień słów w danym tekście. Przykład (pojedynczy dokument) Dla zdania (dokumentu): dostaniemy: Kot lubi Alę a Ala kota 1 2 1 1 1 1 możemy też sprowadzić słowa do podstawowych form: i wtedy odstaniemy: kot lubić ala a 2 2 2 1 Przykład (dwa dokumenty) …

Bag Of Words – prosty sposób na wektoryzację Czytaj dalej »

NER – named entity recognition

NER to technika przypisywania podmiotom odpowiednich etykiet. Przykładowo „Konrad” będzie mogło mieć etykietę „imię”, a „50 zł” będzie odpowiadało etykiecie „gotówka”. Inne często stosowane etykiety to: – organizacje (Facebook, Google…)– lokalizacje (Warszawa, Lublin, Londyn…)– wartości liczbowe (1,2,3,4…)– wartości procentowe (10%, 34%…) Przykładowa wizualizacja możliwości biblioteki spaCy

Part Of Speech – określanie części mowy

Aktualnie dostępne biblioteki, pozwalają na określenie części mowy (czasownik, rzeczownik, przymiotnik) na podstawie słowa i kontekstu. Niektóre biblioteki potrafią rozpoznawać też czasy (przeszły, teraźniejszy, przyszły…) jak i inne części mowy. Przykładowa wizualizacja możliwości biblioteki spaCy

NLP – Stop words

Stop words są to słowa nie wnoszące znaczenia w zdaniach. Ale co znaczy nie wnoszące znaczenia? No to już zależy od kontekstu i często jest tak, że lista takich słów może się wahać od kilku do kilkuset. Przykładem takich słów mogłyby być: a, gdzie, że. Ale równie dobrze można się z tym sprzeczać, że te …

NLP – Stop words Czytaj dalej »

Lematyzacja – uzyskanie podstawowej formy słów

Lematyzacja (lemmatization) polega na wydobyciu podstawy słowa na podstawie nie tylko samego słowa, ale też jego kontekstu (słów będących obok). Jest to technika dużo bardziej zaawansowana niż stemming. Przykład na podstawie biblioteki spaCy Jak widać, lematyzacja radzi sobie bardzo dobrze z sprowadzaniem słów do ich podstawowej formy. Warto zajrzeć 1. https://pl.wikipedia.org/wiki/Lematyzacja