AI

Gradient descent – metoda gradientu prostego

Gradient to po prostu kierunek i wielkość największego wzrostu funkcji (jest to wektor). Czyli aby minimalizować przykładowo funkcję straty należy poruszać się w przeciwnym kierunku do gradientu. Dzięki temu można optymalizować parametry modelu (na przykład wagi w sztucznej sieci neuronowej) w dobrym kierunku. Metoda gradientu prostego jest często wykorzystywaną metodą przy optymalizacji wag sztucznych sieci …

Gradient descent – metoda gradientu prostego Czytaj dalej »

VADER – czyli jak za pomocą reguł ocenić zabarwienie tekstu

VADER to Valence Aware Dictionary and sEntiment Reasoner. Rozbijmy to na części pierwsze Valence Aware Dictionary Valence Aware Dictionary to w wolnym tłumaczeniu – słownik ze świadomością „zabarwienia”. Czyli mamy wcześniej przygotowany słownik wyrazów z ich oceną. Przykładowo: Słowo Jak pozytywne jest słowo Jak negatywne jest słowo Jak neutralne jest słowo Jakie jest ogółem Dobry …

VADER – czyli jak za pomocą reguł ocenić zabarwienie tekstu Czytaj dalej »

Czym jest norma wektora?

Norma wektora to po prostu jego długość (czasami nazywana wielkością). Rodzaje norm – sposoby obliczania długości Istnieją różne sposoby na obliczanie długości wektora. Jedne za bardziej popularnych to norma L1 i norma L2. Norma L1 Aby obliczyć długość wektora za pomocą normy L1:1. Bierzemy każdą wartość wektora2. Wyznaczamy jej wartość bezwzględną3. Sumujemy wszystkie wartościCo się …

Czym jest norma wektora? Czytaj dalej »

word2vec – czyli kontekst ma znaczenie

word2vec jest to nazwa techniki za pomocą której możliwe jest stworzenie przestrzeni wektorów, w której każde słowo jest reprezentowane za pomocą oddzielnego wektora (czyli za pomocą liczb – dzięki temu komputery mogą to ogarnąć 😉 ). Idea Idea word2vec jest następująca – słowa nabierają znaczenia w kontekście innych słów. Przykładowo słowo „brązowy” nie mówi nam …

word2vec – czyli kontekst ma znaczenie Czytaj dalej »

TFIDF – wektoryzacja biorąca pod uwagę ważność słów

TF (term frequency) IDF (Inverse Document Frequency) Term Frequency Przykład Dokument A: Dokument B: Budowanie bazy słownictwa Budowanie wektora dla „Ala lubi psy i koty” Ala lubi psy i koty Jacek słonie 1/5 1/5 1/5 1/5 1/5 0 0 czyli nasz wektor to: Budowanie wektora dla „Jacek lubi psy i koty i słonie” Ala lubi …

TFIDF – wektoryzacja biorąca pod uwagę ważność słów Czytaj dalej »

Obliczanie podobieństwa dokumentów

Najbardziej popularne sposoby na obliczanie podobieństw dokumentów to: kosinus (cosine similarity) i odległość euklidesowa (euclidian distance). Podobieństwo kosinusowe (cosine similarity) Jest to po prostu obliczanie kąta pomiędzy dwoma punktami w przestrzeni względem centrum przestrzeni: Wzór Przykład Weźmy dla przykładu wektory z wpisu Bag of Words: Obliczanie iloczynu wektorów Obliczanie długości wektorów Obliczanie kosinusa Podobieństwo odległość …

Obliczanie podobieństwa dokumentów Czytaj dalej »

Bag Of Words – prosty sposób na wektoryzację

Technika wektoryzacji zwana Bag Of Words polega na prostym zliczeniu wystąpień słów w danym tekście. Przykład (pojedynczy dokument) Dla zdania (dokumentu): dostaniemy: Kot lubi Alę a Ala kota 1 2 1 1 1 1 możemy też sprowadzić słowa do podstawowych form: i wtedy odstaniemy: kot lubić ala a 2 2 2 1 Przykład (dwa dokumenty) …

Bag Of Words – prosty sposób na wektoryzację Czytaj dalej »

Czym jest kwantyzacja modeli językowych?

Jest to uproszczenie modelu poprzez zaokrąglenia do mniej dokładnych wartości niż rzeczywiste. A przez to przechowywanie ich za pomocą mniejszych komórek pamięci (na przykład z Float32 do Float 16). Dzięki temu możliwe jest z uruchomienie modelu na słabszym sprzęcie. A po co to komu? Większość dzisiejszych modeli językowych wymaga naprawdę mocnego sprzętu – pokroju 64 …

Czym jest kwantyzacja modeli językowych? Czytaj dalej »

Rozmiar modelu językowego

Rozmiar modelu językowego to po prostu ilość wag sieci neuronowej. Często mówi się także o ilości parametrów modelu, co także odnosi się do ilości wag. Przykładowe wartości Nazwa modelu Ilość wag (parametrów) Przybliżone wymagania sprzętowe dla uruchomienia modelu (wnioskowanie/inferencja) LLaMA 7B 7 bilionów (7 000 000 000 000) Procesor: GPU: NVIDIA A100 z 40 GB …

Rozmiar modelu językowego Czytaj dalej »