Bag Of Words – prosty sposób na wektoryzację

Technika wektoryzacji zwana Bag Of Words polega na prostym zliczeniu wystąpień słów w danym tekście.

Przykład (pojedynczy dokument)

Dla zdania (dokumentu):

Kot lubi Alę a Ala lubi kota

dostaniemy:

KotlubiAlęaAlakota
121111

możemy też sprowadzić słowa do podstawowych form:

kot lubić ala a ala lubić kot

i wtedy odstaniemy:

kotlubićalaa
2221

Przykład (dwa dokumenty)

Umówmy się – tworzenie wektora dla pojedynczego dokumentu nie ma sensu. Wektory tworzymy po to żeby móc porównać ze sobą dokumenty 🙂

Załóżmy, że mamy dwa zdania:

Ala lubi programować
Ala lubi pisać kod

Tworzenie bazy słownictwa

No to teraz musimy stworzyć wspólną bazę słownictwa dla obu dokumentów:

Ala, lubi, programować, pisać, kod

Tworzenie wektorów

Na podstawie zbudowanej bazy słownictwa możemy zbudować wektory:

Wektor dla „Ala lubi programować”
Alalubiprogramowaćpisaćkod
11100
1,1,1,0,0
Wektor dla „Ala lubi pisać kod”
Alalubiprogramowaćpisaćkod
11011
1,1,0,1,1

Pozostaw komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *