Intel podrobne popisuje svoje závery nervovej sústavy a výcvik kariet AI

Intel-nervana-neurálnej sieť procesor-2x1

Hot Chips 31 tento týždeň prebieha s prezentáciami mnohých spoločností. Spoločnosť Intel sa rozhodla využiť vysoko technickú konferenciu na diskusiu o rôznych produktoch vrátane hlavných stretnutí zameraných na divíziu AI spoločnosti. AI a strojové učenie sa považujú za rozhodujúce oblasti pre budúcnosť výpočtovej techniky. Zatiaľ čo Intel tieto oblasti riešil pomocou funkcií, ako je DL Boost na Xeone, pre trh tiež buduje špecializované akcelerátory.



NNP-I 1000 (Spring Hill) a NNP-T (Spring Crest) sú určené pre dva rôzne trhy, inferenciu a školenie. „Výcvik“ je práca na vytváraní a výučbe neurónovej siete v prvom rade na spracovanie údajov. Odvodenie sa týka úlohy skutočne spustiť teraz trénovaný model neurónovej siete. Vyžaduje oveľa viac výpočtového výkonu na vycvičenie neurónovej siete, ako je to v prípade, keď sa výsledky tohto tréningu dajú aplikovať na úlohy kategorizácie alebo klasifikácie v reálnom svete.



Intel Spring Crest NNP-T je navrhnutý tak, aby sa mohol bezprecedentne škálovať, s vyvážením medzi schopnosťou tenzorového spracovania, integrovaným balíkom HBM, sieťovými schopnosťami a integrovanými SRAM na zvýšenie výkonu spracovania. Podkladový čip je postavený spoločnosťou TSMC - áno, TSMC - na 16 nm, s 680 mmdva veľkosť matrice a 1200 mmdva interposer. Celá zostava predstavuje 27 miliárd tranzistorov so 4 x 8 GB zásobníkmi pamäte HBM2-2400, 24 klastrov tenzorového spracovania (TPC) s frekvenciou jadra až 1,1 GHz. Šesťdesiatštyri liniek SerDes HSIO poskytuje celkovú šírku pásma 3,58 TB / s a ​​karta podporuje pripojenie x16 PCIe 4.0. Očakáva sa spotreba energie medzi 150-250W. Čip bol vyrobený pomocou pokročilého balenia CoWoS od spoločnosti TSMC (Chip-on-Wafer-on-Substrate) a nesie 60 MB medzipamäte distribuovanej v rôznych jadrách. CoWoS súťaží s EMIB spoločnosti Intel, ale Intel sa rozhodol tento hardvér postaviť skôr na TSMC, ako na využívaní vlastných zlievarní. Výkon sa odhaduje až na 119 TOPOV.





'Nechceme plytvať oblasťou zomierania na veci, ktoré nepotrebujeme,' povedal viceprezident spoločnosti Intel pre hardware Carey Kloss Ďalšia platforma , „Naša sada pokynov je jednoduchá; násobenie matíc, lineárna algebra, konvolúcie. Registre ako také nemáme, všetko je tenzorové (2D, 3D alebo 4D). “ V softvéri je definované veľa, vrátane možnosti naprogramovať to isté pri rozbití modelu tak, aby bežal na alebo z matrice. 'Berte to ako hierarchiu,' uviedol Kloss v rozhovore. „Rovnakú sadu pokynov môžete použiť na presun údajov medzi dvoma klastrami v jednej skupine vedľa jednej HBM alebo medzi skupinami alebo dokonca smrť v sieti. Chceme uľahčiť komunikáciu softvéru. “

Nasledujúca prezentácia predstavuje architektúru NNP-T. Všetky údaje sú s láskavým dovolením spoločnosti Intel a údaje o výkone zdieľané v minimálnych hodnotách spoločnosti neboli spoločnosťou importpartsspecialists.com zjavne overené.



NNP-T je navrhnutý tak, aby efektívne smeroval von bez potreby podvozku. V rovnakom šasi je možné spojiť viac akcelerátorov NNP-T a karty podporujú spojenie šasi-šasi a dokonca aj bezšnúrové spojenie medzi stojanmi bez potreby prepínania. Na zadnej strane každej medziposchodovej karty sú štyri sieťové porty QFSP (Quad Small Form Factor Pluggable).



Zatiaľ nemáme údaje o výkone, ale toto je špičková tréningová karta, s ktorou Intel príde na trh, aby konkurovala tým, ako má Nvidia. Zatiaľ nie je jasné, ako sa prípadné riešenia ako Xe, ktoré sa pre dátové centrá nebudú dodávať do roku 2021, zmestia do budúceho produktového portfólia spoločnosti, akonáhle budú mať na trhu s dátovými centrami procesorové jadrá aj GPU.

Spring Hill / NNP-I: Icelake On-Board

Spring Hill, nový inferenčný akcelerátor Intelu, je úplne iná beštia. Tam, kde je NNP-T navrhnutý pre výkonové obálky 150 - 250 W, je NNP-I 10 - 50 W diel určený na pripojenie do zásuvky M.2. Obsahuje dve jadrá procesora Icelake spárované s 12 výpočtovými motormi (ICE).



12 motorov ICE a dvojité jadrá CPU sú zálohované 24 MB koherentnej L3 a podporujú pokyny AVX-512 aj VNNI. K lokálnemu fondu LPDDR4 pamätí sú pripojené dva radiče pamäte LPDDR4X (zatiaľ o kapacite nehovoriac). Šírka pásma DRAM je až 68 GB / s, ale celkové množstvo pamäte DRAM na karte nie je známe. Spring Hill je možné pridať na akýkoľvek moderný server, ktorý podporuje sloty M.2 - podľa spoločnosti Intel zariadenie komunikuje cez stúpačku M.2 ako produkt PCIe, a nie cez NVMe.



Cieľom v prípade NNP-I je spustiť operácie na procesore AI s menšou potrebou réžie od primárneho procesora v systéme. Zariadenie sa pripája cez PCIe (sú podporované PCIe 3.0 aj 4.0) a zvláda pracovné zaťaženie AI, pričom na akékoľvek potrebné spracovanie využíva on-die Icelake jadrá. Integrované SRAM a DRAM poskytujú šírku pásma lokálnej pamäte.



Inference Compute Engine podporuje rôzne formáty inštrukcií, od FP16 do INT1, s programovateľným vektorovým procesorom a 4 MB SRAM pre každú jednotlivú ICE.

K dispozícii je tiež tenzorový motor, ktorý sa nazýva Deep Learning Compute Grid, a Tensilica Vision P6 DSP (používaný na spracovanie pracovných záťaží, ktoré nie sú vyladené na beh v DL Compute Grid s pevnou funkciou).

Optimalizovaný je aj celkový pamäťový subsystém NNP-I, pričom vyrovnávacia pamäť L3 je rozdelená do ôsmich 3 MB segmentov zdieľaných medzi jadrami ICE a CPU. Cieľom je udržať údaje čo najbližšie k prvkom spracovania, ktoré to potrebujú. Spoločnosť Intel tvrdí, že NNP-I môže pri použití 10 W TDP poskytnúť výkon ResNet50 s 3 600 inferenciami za sekundu. To vychádza na 4,8 TOP / watt, čo zodpovedá celkovým cieľom spoločnosti Intel v oblasti efektívnosti (spoločnosť tvrdí, že NNP-I je najefektívnejší pri nižších príkonoch).

Intel neočakáva, že NNP-I príde na maloobchodný trh, ale inferenčné riešenia robia svižný biznis v porovnaní so špičkovými školiacimi riešeniami zameranými na dátové centrá. NNP-I by mohol byť v blízkej budúcnosti zaslaný širokej škále zákazníkov, v závislosti od celkového využitia.

Cieľom oboch týchto riešení je napadnúť spoločnosť Nvidia v dátovom centre. Aj keď sa obe úplne líšia od Xeon Phi, môžete tvrdiť, že sa spoločne zameriavajú na niektoré z priestorov, do ktorých chcela spoločnosť Intel predať Xeon Phi, aj keď veľmi rozdielnymi spôsobmi. To však nemusí byť nevyhnutne zlá vec - keď bol postavený pôvodný Larrabee, predstava použitia GPU pre prácu AI a dátového centra bola vzdialeným konceptom. Prehodnotenie témy pomocou novej špecializovanej architektúry pre odvodenie aj školenie je pre spoločnosť Intel inteligentným krokom, ak dokáže spoločnosť získať objem od spoločnosti Nvidia.