Technika wektoryzacji zwana Bag Of Words polega na prostym zliczeniu wystąpień słów w danym tekście.
Przykład (pojedynczy dokument)
Dla zdania (dokumentu):
Kot lubi Alę a Ala lubi kota
dostaniemy:
Kot | lubi | Alę | a | Ala | kota |
1 | 2 | 1 | 1 | 1 | 1 |
możemy też sprowadzić słowa do podstawowych form:
kot lubić ala a ala lubić kot
i wtedy odstaniemy:
kot | lubić | ala | a |
2 | 2 | 2 | 1 |
Przykład (dwa dokumenty)
Umówmy się – tworzenie wektora dla pojedynczego dokumentu nie ma sensu. Wektory tworzymy po to żeby móc porównać ze sobą dokumenty 🙂
Załóżmy, że mamy dwa zdania:
Ala lubi programować
Ala lubi pisać kod
Tworzenie bazy słownictwa
No to teraz musimy stworzyć wspólną bazę słownictwa dla obu dokumentów:
Ala, lubi, programować, pisać, kod
Tworzenie wektorów
Na podstawie zbudowanej bazy słownictwa możemy zbudować wektory:
Wektor dla „Ala lubi programować”
Ala | lubi | programować | pisać | kod |
1 | 1 | 1 | 0 | 0 |
1,1,1,0,0
Wektor dla „Ala lubi pisać kod”
Ala | lubi | programować | pisać | kod |
1 | 1 | 0 | 1 | 1 |
1,1,0,1,1