Rozmiar modelu językowego to po prostu ilość wag sieci neuronowej. Często mówi się także o ilości parametrów modelu, co także odnosi się do ilości wag.
Przykładowe wartości
Nazwa modelu | Ilość wag (parametrów) | Przybliżone wymagania sprzętowe dla uruchomienia modelu (wnioskowanie/inferencja) |
LLaMA 7B | 7 bilionów (7 000 000 000 000) | Procesor: GPU: NVIDIA A100 z 40 GB VRAM, Pamięć RAM: 64 GB |
LLaMA 65B | 65 bilionów (65 000 000 000 000) | Procesor: Kilka NVIDIA A100 z 40 GB VRAM Pamięć RAM: 512 GB |
GPT 3 Davinci | 175 miliardów (175 000 000 000) | Procesor: NVIDIA A100 z 40 GB VRAM Pamięć RAM: 64 GB |
BERT Large | 340 milionów (340 000 000) | Procesor: NVIDIA T4 z 16 GB VRAM Pamięć RAM: 32 GB |
Jak widać niektóre modele są tak duże, że nie jest możliwe ich uruchomienie na większości komputerów. Dlatego też modele są kwantyzowane, tak aby mogły być odpalane na słabszych maszynach.