Byłoby lepiej, gdyby to nie był tylko projekt naukowy

Byłoby lepiej, gdyby to nie był tylko projekt naukowy

Big Blue był jednym z projektantów systemów, który wcześnie wychwycił błąd akceleratora i stanowczo zadeklarował, że na dłuższą metę wszystkie rodzaje obliczeń o wysokiej wydajności będą miały jakieś przyspieszenie. To jest rodzaj wyspecjalizowanego układu ASIC, w którym procesor wykonuje matematyczne odciążenie.

Być może IBM ponownie wyciąga wnioski z tej wczesnej ery HPC półtorej dekady temu, kiedy stworzył akcelerator matematyki wektorowej PowerXCell i użył go w superkomputerze „Roadrunner” obsługującym petaflopy w Los Alamos National Laboratory. te lekcje dla współczesnej epoki sztucznej inteligencji.

Można mieć nadzieję, że przynajmniej po to, aby utrzymać zainteresowanie na arenie AI, firma potraktuje się poważnie przynajmniej w jakimś rodzaju HPC (którym z pewnością jest szkolenie AI), jak wydaje się być jej ramię badawcze IBM. Robisz to z nowym modułem akceleracji AI, który zaprezentowałeś.

Niewiele szczegółów kryjących się za AIU IBM Research zostało ujawnionych i jak dotąd jedyną rzeczą, jaką ktokolwiek ma, jest historia macierzy IBM i jednostek matematycznych wektorowych (które wcale nie są luźne obliczeniowo) oraz ich wykorzystanie mieszanej precyzji i Post na blogu mówiący konkretnie o AIU przejść.

AIU zaprezentowane przez IBM Research będzie oparte na procesie 5 nm i podobno wyprodukowane przez firmę Samsung, która jest partnerem IBM w produkcji 7-nanometrowych procesorów „Cirrus” Power10 dla serwerów korporacyjnych i procesorów Telum System z16 dla komputerów mainframe. Chipy Power10 zawierają bardzo wydajne moduły matematyczne macierzowe i wektorowe, które są ewolucją projektów używanych przez IBM od dziesięcioleci, ale chip Telum wykorzystuje heurystykę AI Core AI Core trzeciej generacji firmy IBM Research jako heurystykę AI i szkolenie AI na chipie akcelerator o niskiej rozdzielczości.

The Pierwszy chip AI Core ogłoszony w 2018 roku Był w stanie wykonać matematykę z połówkową dokładnością FP16 i akumulacją pojedynczej precyzji FP32 i odegrał kluczową rolę w pracach IBM nad wprowadzeniem Jeszcze mniej dokładne dane i przetwarzanie dla sieci neuronowych. Po utworzeniu akceleratora AI dla procesora Telum z16, Które opisaliśmy tutaj w sierpniu 2021 r.Firma IBM Research wykorzystała ten akcelerator AI jako element konstrukcyjny i przeskalowała go na jednym urządzeniu.

READ  Apple prezentuje okulary Vision Pro VR w wygórowanej cenie

Przyjrzyjmy się akceleratorowi AI na chipie Telum przed wejściem do nowego AIU.

Na chipie z16 akcelerator AI składa się ze 128 kawałków procesora, prawdopodobnie ułożonych w konfiguracji fazowej 2D o wymiarach 4 x 4 x 8, ale IBM nie jest tego jasny. Ta macierz skurczowa obsługuje matematykę macierzy FP16 (i zmiennych o mieszanej precyzji) na akumulacyjnych jednostkach zmiennoprzecinkowych FP32. Zostało to wyraźnie zaprojektowane, aby wspierać matematykę macierzową i splotową w uczeniu maszynowym — w tym nie tylko wnioskowanie, ale także szkolenie o niskiej wierności, które, jak przewiduje IBM, może mieć miejsce na platformach korporacyjnych. Uważamy, że może również obsługiwać format ćwierćprecyzyjny FP8 do szkolenia i wnioskowania AI, oprócz INT2 i INT4 do wnioskowania AI, które widzimy w Eksperymentalny czterordzeniowy układ AI Core zaprezentowany przez IBM Research w styczniu 2021 r. Do urządzeń kompaktowych i przenośnych. Akcelerator CPU AI firmy Telum zawiera również 32 złożone funkcje (CF), które obsługują instrukcje SIMD FP16 i FP32 i są zoptymalizowane pod kątem funkcji aktywacji i złożonych operacji. Lista obsługiwanych funkcji specjalnych obejmuje:

  • Aktywuj LSTM
  • GRU .aktywacja
  • Mnożenie macierzy stopionej, błąd odniesienia
  • podwójnie stopiona matryca (nadawanie/nadawanie)
  • Normalizacja partii
  • Połączony skręt, dodatek Bias, Relu
  • Maksymalna pula 2 dni
  • Średnia pula 2D
  • Miękki Max
  • Prawdziwy
  • Thanh
  • esicy
  • Dodać
  • oferta lub rabat
  • zwielokrotniać
  • przeklina
  • minuta
  • powyższe
  • Zarejestruj się

Jednostka prefetch i rewrite są dołączone do pętli łącza rdzenia z16 i pamięci podręcznej L2, a także do notatnika, który z kolei łączy się z rdzeniem AI poprzez jednostkę transferu danych i koordynacji, która jak sama nazwa wskazuje formatuje dane tak możesz przejść przez jednostkę matematyczną Matrix, aby wykonać wnioskowanie i uzyskać wynik. Wstępne pobieranie może odczytywać dane z płyty pamięci z prędkością ponad 120 GB/s i przechowywać dane na płycie z prędkością ponad 80 GB/s; Silnik danych może pobierać i przesyłać dane z centrów PT i CF do modułu AI z prędkością 600 Gb/s.

READ  Twitter może wkrótce być w stanie dodawać zdjęcia, filmy i GIF-y w jednym tweecie

na żelaznym systemie z16Platforma Snap ML firmy IBM i platforma ONNX Microsoft Azure są w fazie produkcji, a platforma TensorFlow firmy Google jest niedawno w fazie otwartej wersji beta przez dwa miesiące.

Teraz wyobraź sobie, że skopiowałeś ten akcelerator AI z chipa Telum i wkleiłeś go do projektu 34 razy, w ten sposób:

Te 34 rdzenie i ich regiony nierdzeniowe do przechowywania, rdzenie łączące i system zewnętrzny mają łącznie 23 miliardy tranzystorów. (IBM twierdzi, że w AIU są 32 rdzenie, ale wyraźnie widać 34 rdzenie, więc uważamy, że dwa z nich są tam, aby zwiększyć przepustowość chipów na maszynach z 32 użytecznymi rdzeniami.)

Procesory Telum z16 ważą 5 GHz, ale AIU prawdopodobnie nie będzie działać w pobliżu tej prędkości.

Jeśli spojrzysz na szablon AIU, ma on szesnaście pewnego rodzaju kontrolerów I/O, które prawdopodobnie są typowymi SerDes, które mogą być używane do pamięci lub I/O (tak jak IBM zrobił z ich interfejsami OpenCAPI dla I/O i pamięci w Układ Power10). Wydaje się być Osiem banków pamięci Samsung LPDDR5 Również w pakiecie byłoby to łącznie 48 GB pamięci i zapewniałoby około 43 GB/s całkowitej przepustowości. Jeśli są to wszystkie kontrolery pamięci, pamięć można podwoić do 96 GB/si całkowitej przepustowości 86 GB/s.

Zespół kontrolera na górze matrycy AIU jest prawdopodobnie kontrolerem PCI-Express 4.0, ale miejmy nadzieję, że kontrolerem PCI-Express 5.0 z wbudowaną obsługą protokołu CXL.

IBM nie powiedział, jakiej wydajności można się spodziewać po AIU, ale możemy się domyślać. W styczniu 2021 r. Czterordzeniowy układ AI Core zadebiutował na chipsecie ISSCC, wyryty przez Samsunga przy 7 nm, który zapewnił 25,6 teraflopów treningu FP8 i 102,4 teraflopów wnioskowania INT4 działającego z częstotliwością 1,6 GHz. Ten testowy układ ma moc 48,6 W i ma 8 MB pamięci podręcznej w układzie.

READ  Call of Duty Warzone Sezon 3 | Data rozpoczęcia, wydarzenie Godzilla i mapa drogowa

Ten AIU ma 34 rdzenie, z których 32 są aktywne, więc jego wydajność powinna być 8X, zakładając, że prędkość zegara pozostanie taka sama (cokolwiek to jest) i 8X pamięć podręczna na chipie. Będzie to działać przy 204,8 teraflopach do treningu AI w FP8 i 819.2 teraflopach do wnioskowania AI z 64 MB pamięci podręcznej na chipie, w czymś na południe od koperty mocy 400 W po zaimplementowaniu przy 7 nm. Ale IBM wdraża go z Samsungiem przy 5 nm, co prawdopodobnie daje AIU około 275 W.

Dla porównania, 350-watowa wersja karty graficznej „Hopper” GH100 firmy Nvidia PCI-Express 5.0 zapewnia przepustowość 2 TB/s ponad 80 GB pamięci HBM3 i 3,03 petaflopsa wydajności treningu FP8 AI z rzadkim wsparciem.

IBM Research będzie potrzebował rdzeni AI. Wiele rdzeni AI.

Subskrypcja newslettera

Przeglądaj najciekawsze momenty, analizy i historie z tygodnia prosto od nas do swojej skrzynki odbiorczej bez żadnych przerw.
Zapisz się teraz

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *