Author name: Damian

VADER – czyli jak za pomocą reguł ocenić zabarwienie tekstu

VADER to Valence Aware Dictionary and sEntiment Reasoner. Rozbijmy to na części pierwsze Valence Aware Dictionary Valence Aware Dictionary to w wolnym tłumaczeniu – słownik ze świadomością „zabarwienia”. Czyli mamy wcześniej przygotowany słownik wyrazów z ich oceną. Przykładowo: Słowo Jak pozytywne jest słowo Jak negatywne jest słowo Jak neutralne jest słowo Jakie jest ogółem Dobry …

VADER – czyli jak za pomocą reguł ocenić zabarwienie tekstu Czytaj dalej »

Czym jest norma wektora?

Norma wektora to po prostu jego długość (czasami nazywana wielkością). Rodzaje norm – sposoby obliczania długości Istnieją różne sposoby na obliczanie długości wektora. Jedne za bardziej popularnych to norma L1 i norma L2. Norma L1 Aby obliczyć długość wektora za pomocą normy L1:1. Bierzemy każdą wartość wektora2. Wyznaczamy jej wartość bezwzględną3. Sumujemy wszystkie wartościCo się …

Czym jest norma wektora? Czytaj dalej »

word2vec – czyli kontekst ma znaczenie

word2vec jest to nazwa techniki za pomocą której możliwe jest stworzenie przestrzeni wektorów, w której każde słowo jest reprezentowane za pomocą oddzielnego wektora (czyli za pomocą liczb – dzięki temu komputery mogą to ogarnąć 😉 ). Idea Idea word2vec jest następująca – słowa nabierają znaczenia w kontekście innych słów. Przykładowo słowo „brązowy” nie mówi nam …

word2vec – czyli kontekst ma znaczenie Czytaj dalej »

Podstawienie i permutacja w szyfrowaniu

Pojęcia te nie odbiegają od przypisywanych im definicji poza kryptografią (np. w matematyce). Podstawienie Jeśli szyfr polega na podstawianiu to oznacza to tyle, że każda litera ma swój odpowiednik. Najczęściej reprezentuje się to tabelą Substitution Box (S-box). Przykładowo: Litera Zastępstwo (substitution) A B B C C D D E E F F G G H …

Podstawienie i permutacja w szyfrowaniu Czytaj dalej »

TFIDF – wektoryzacja biorąca pod uwagę ważność słów

TF (term frequency) IDF (Inverse Document Frequency) Term Frequency Przykład Dokument A: Dokument B: Budowanie bazy słownictwa Budowanie wektora dla „Ala lubi psy i koty” Ala lubi psy i koty Jacek słonie 1/5 1/5 1/5 1/5 1/5 0 0 czyli nasz wektor to: Budowanie wektora dla „Jacek lubi psy i koty i słonie” Ala lubi …

TFIDF – wektoryzacja biorąca pod uwagę ważność słów Czytaj dalej »

Obliczanie podobieństwa dokumentów

Najbardziej popularne sposoby na obliczanie podobieństw dokumentów to: kosinus (cosine similarity) i odległość euklidesowa (euclidian distance). Podobieństwo kosinusowe (cosine similarity) Jest to po prostu obliczanie kąta pomiędzy dwoma punktami w przestrzeni względem centrum przestrzeni: Wzór Przykład Weźmy dla przykładu wektory z wpisu Bag of Words: Obliczanie iloczynu wektorów Obliczanie długości wektorów Obliczanie kosinusa Podobieństwo odległość …

Obliczanie podobieństwa dokumentów Czytaj dalej »

Bag Of Words – prosty sposób na wektoryzację

Technika wektoryzacji zwana Bag Of Words polega na prostym zliczeniu wystąpień słów w danym tekście. Przykład (pojedynczy dokument) Dla zdania (dokumentu): dostaniemy: Kot lubi Alę a Ala kota 1 2 1 1 1 1 możemy też sprowadzić słowa do podstawowych form: i wtedy odstaniemy: kot lubić ala a 2 2 2 1 Przykład (dwa dokumenty) …

Bag Of Words – prosty sposób na wektoryzację Czytaj dalej »

Jak zmigrować dane pomiędzy tabelami utrzymując zero downtime?

Załóżmy, że potrzebujemy przykładowo rozdzielić jedną tabelę na dwie mniejsze. Tylko, że nasz system musi cały czas działać (zero downtime). Problem Tabela z polami (A,B,C,D). A chcemy mieć dwie z polami (A,B) oraz (C,D). Rozwiązanie 1. Tworzysz dodatkowe table (A,B) oraz (C,D). Stare pozostają na miejscu2. Adaptujesz tak kod, aby od teraz zapisywał zarówno do …

Jak zmigrować dane pomiędzy tabelami utrzymując zero downtime? Czytaj dalej »

Idea fail-fast

Idea fail-fast mówi o tym, że najlepiej żeby system/program/cokolwiek wywaliło się jak najszybciej. No to lecimy z przykładami 🙂 Metoda/obiekt – programowanie obiektowe Tutaj idea fail-fast będzie polegała na jak najszybszej weryfikacji otrzymywanych parametrów. Metoda Klasa Kosztowne obliczenia Załóżmy, że mamy system, który na pewnym etapie wykonuje obliczenia które są bardzo kosztowne (na przykład uczenie …

Idea fail-fast Czytaj dalej »