WEKTORYZACJA

Czym jest norma wektora?

Norma wektora to po prostu jego długość (czasami nazywana wielkością). Rodzaje norm – sposoby obliczania długości Istnieją różne sposoby na obliczanie długości wektora. Jedne za bardziej popularnych to norma L1 i norma L2. Norma L1 Aby obliczyć długość wektora za pomocą normy L1:1. Bierzemy każdą wartość wektora2. Wyznaczamy jej wartość bezwzględną3. Sumujemy wszystkie wartościCo się …

Czym jest norma wektora? Czytaj dalej »

word2vec – czyli kontekst ma znaczenie

word2vec jest to nazwa techniki za pomocą której możliwe jest stworzenie przestrzeni wektorów, w której każde słowo jest reprezentowane za pomocą oddzielnego wektora (czyli za pomocą liczb – dzięki temu komputery mogą to ogarnąć 😉 ). Idea Idea word2vec jest następująca – słowa nabierają znaczenia w kontekście innych słów. Przykładowo słowo „brązowy” nie mówi nam …

word2vec – czyli kontekst ma znaczenie Czytaj dalej »

TFIDF – wektoryzacja biorąca pod uwagę ważność słów

TF (term frequency) IDF (Inverse Document Frequency) Term Frequency Przykład Dokument A: Dokument B: Budowanie bazy słownictwa Budowanie wektora dla „Ala lubi psy i koty” Ala lubi psy i koty Jacek słonie 1/5 1/5 1/5 1/5 1/5 0 0 czyli nasz wektor to: Budowanie wektora dla „Jacek lubi psy i koty i słonie” Ala lubi …

TFIDF – wektoryzacja biorąca pod uwagę ważność słów Czytaj dalej »

Obliczanie podobieństwa dokumentów

Najbardziej popularne sposoby na obliczanie podobieństw dokumentów to: kosinus (cosine similarity) i odległość euklidesowa (euclidian distance). Podobieństwo kosinusowe (cosine similarity) Jest to po prostu obliczanie kąta pomiędzy dwoma punktami w przestrzeni względem centrum przestrzeni: Wzór Przykład Weźmy dla przykładu wektory z wpisu Bag of Words: Obliczanie iloczynu wektorów Obliczanie długości wektorów Obliczanie kosinusa Podobieństwo odległość …

Obliczanie podobieństwa dokumentów Czytaj dalej »

Bag Of Words – prosty sposób na wektoryzację

Technika wektoryzacji zwana Bag Of Words polega na prostym zliczeniu wystąpień słów w danym tekście. Przykład (pojedynczy dokument) Dla zdania (dokumentu): dostaniemy: Kot lubi Alę a Ala kota 1 2 1 1 1 1 możemy też sprowadzić słowa do podstawowych form: i wtedy odstaniemy: kot lubić ala a 2 2 2 1 Przykład (dwa dokumenty) …

Bag Of Words – prosty sposób na wektoryzację Czytaj dalej »