Rewolucja w wydajności sztucznej inteligencji: SqueezeLLM firmy UC Berkeley debiutuje w gęstej i rzadkiej kwantyzacji, łącząc jakość i szybkość w renderowaniu dużych modeli językowych

Rewolucja w wydajności sztucznej inteligencji: SqueezeLLM firmy UC Berkeley debiutuje w gęstej i rzadkiej kwantyzacji, łącząc jakość i szybkość w renderowaniu dużych modeli językowych
https://arxiv.org/abs/2306.07629

Ostatnie osiągnięcia w zakresie dużych modeli językowych (LLM) wykazały ich imponującą zdolność do rozwiązywania problemów w wielu obszarach. LLM mogą zawierać setki miliardów parametrów i są szkolone na ogromnych skryptach.

Badania pokazują, że w heurystyce LLM przepustowość pamięci, a nie procesor, jest głównym ograniczeniem wydajności zadań generatywnych. Oznacza to, że szybkość, z jaką parametry mogą być ładowane i przechowywane w sytuacjach związanych z pamięcią, a nie w operacjach arytmetycznych, staje się główną barierą opóźnienia. Jednak postęp w technologii przepustowości pamięci pozostaje daleko w tyle za komputerami, czego skutkiem jest zjawisko znane jako ściana pamięci.

Kwantyzacja to obiecująca metoda, która polega na przechowywaniu parametrów modelu z mniejszą precyzją niż zwykłe 16 lub 32 bity używane podczas uczenia. Pomimo ostatnich postępów, takich jak LLaMA i odmiany zgodne z instrukcjami, nadal trudno jest osiągnąć dobrą wydajność kwantyzacji, zwłaszcza przy niskiej rozdzielczości bitowej i stosunkowo skromnych modelach (np. parametry 50B).

Nowe badanie przeprowadzone na Uniwersytecie Kalifornijskim w Berkeley analizuje kwantyzację głębi bitowej w niskiej rozdzielczości, aby ujawnić wady obecnych metod. Na podstawie tych wyników naukowcy wprowadzili SqueezeLLM, platformę kwantyzacji potreningowej, która łączy technikę gęstego i rzadkiego rozpadu z unikalną strategią kwantyzacji niejednorodnej opartej na czułości. Metody te umożliwiają kwantyzację z bardzo niską precyzją przy zachowaniu konkurencyjnej wydajności modelu, co znacznie zmniejsza rozmiary modeli i koszty czasu wnioskowania. Ich metoda zmniejsza zamieszanie 3-bitowego modelu LLaMA-7B z 28,26 z jednolitą kwantyzacją do 7,75 w zbiorze danych C4, co stanowi znaczną poprawę.

Dzięki szeroko zakrojonym testom porównawczym C4 i WikiText2 naukowcy odkryli, że SqueezeLLM konsekwentnie przewyższa istniejące metody kwantyzacji o szeroki margines w różnych dokładnościach bitowych, gdy jest stosowany do zadań modelowania języka LLaMA-7B, 13B i 30B.

Według zespołu dokładna kwantyfikacja niskich kubitów wielu LLM jest szczególnie trudna ze względu na duże wartości odstające w macierzach wag. Te wartości odstające wpływają również na podejście do niejednolitej kwantyzacji, ponieważ przesuwają przypisanie bitów w kierunku skrajnie wysokich lub niskich wartości. Aby pozbyć się wartości odstających, zapewniają prostą metodę, która rozkłada ciężary modelu na gęste i rzadkie komponenty. Dzięki wyizolowaniu wartości skrajnych region centralny wyświetla węższe pasmo do 10, co skutkuje lepszą dokładnością kwantyzacji. Dzięki wydajnym metodom rzadkiej pamięci masowej, takim jak skompresowane rzadkie macierze (CSR), rzadkie dane można zachować z pełną wiernością. Ta metoda wiąże się z niewielkim narzutem dzięki zastosowaniu wydajnych rzadkich koralików dla rzadkiej połowy i obliczenia równoległości wraz z gęstą częścią.

READ  Samsung podobno ujawnił swoje prywatne tajemnice za pośrednictwem ChatGPT • The Register

Zespół demonstruje możliwość pomiaru modeli IF, stosując SqueezeLLM do modeli Vicuna-7B i 13B. W swoich testach porównują dwa systemy. Na początek używają zestawu danych MMLU, wielozadaniowego testu porównawczego, który mierzy wiedzę modelu i umiejętności rozwiązywania problemów, aby zmierzyć jakość wytwarzanych danych wyjściowych. Używają również GPT-4 do oceny jakości generowania modeli ilościowych w stosunku do linii bazowej 16PR, przy użyciu metodologii oceny dostarczonej przez Vicuna. W obu testach porównawczych SqueezeLLM regularnie przewyższa GPTQ i AWQ, dwa nowe, najnowocześniejsze podejścia. Warto zauważyć, że w obu ocenach wydajność 4-bitowego modelu kwantowego jest zasadniczo taka sama.

Prace pokazują znaczne zmniejszenie opóźnień i postęp w wydajności kwantyzacji dzięki ich modelom działającym na procesorach graficznych A6000. Naukowcy wykazali przyspieszenie do 2,3 w porównaniu z bazowym wnioskowaniem FP16 dla LLaMA-7B i 13B. Ponadto proponowana metoda osiąga do 4 razy szybsze opóźnienie niż GPTQ, co wskazuje na jej skuteczność w wydajności kwantyzacji i efektywności wnioskowania.


zeskanuj papier I github. Nie zapomnij dołączyć Reddit 24k + ML SubskrypcjaI kanał na discordzieI I Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres [email protected]


🚀 Sprawdź 100’s AI Tools w AI Tools Club

Tanushree Shenwai jest stażystką konsultingową w MarktechPost. Obecnie zdobywa tytuł Bachelor of Technology w Indyjskim Instytucie Technologii (IIT) w Bhubaneswar. Pasjonuje się data science i żywo interesuje się zakresem zastosowań sztucznej inteligencji w różnych dziedzinach. Pasjonuje ją odkrywanie nowych rozwiązań w technologiach i ich zastosowaniach w świecie rzeczywistym.

Halsey Andrews

„Lekarz gier. Fanatyk zombie. Studio muzyczne. Kawiarni ninja. Miłośnik telewizji. Miły fanatyk alkoholik.

Rekomendowane artykuły

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *