Blackwell i dalje: Budućnost hardverske akceleracije umjetne inteligencije

NVIDIA Blackwell najnovija je GPU arhitektura te kompanije, nasljednik Hopper (H100) arhitekture iz 2022. i Ampere (A100) iz 2020. nvidianews.nvidia.com cudocompute.com. Ime je dobila po matematičaru Davidu Blackwellu, nastavljajući tradiciju NVIDIE u odavanju počasti pionirima računarstva cudocompute.com. Blackwell GPU-ovi predstavljaju ogroman skok u performansama i mogućnostima, kreiran kako bi zadovoljio rastuću potražnju za umjetnom inteligencijom (AI) na velikim razmjerima. Izvršni direktor NVIDIE, Jensen Huang, nazvao je Blackwell “motorom koji pokreće [novu] industrijsku revoluciju” umjetne inteligencije nvidianews.nvidia.com. U ovom izvješću, donosimo sveobuhvatan pregled Blackwell tehnologije, inovacija u odnosu na prethodne generacije te njenog značaja za treniranje i inferenciju velikih AI sustava. Također istražujemo primjene u raznim industrijama – od ogromnih jezičnih modela do robotike i zdravstva – i uspoređujemo Blackwell s konkurentskim AI akceleratorima od AMD-a, Intela, Googlea i vodećih startupa. Na kraju, analiziramo buduće trendove ubrzanja AI hardvera te utjecaj ove nove generacije AI čipova na tržište.

Tehnički pregled Blackwell arhitekture

Blackwell GPU-ovi izrađeni su na TSMC-ovom 4N+ procesu i sadrže nevjerojatnih 208 milijardi tranzistora u jednom pakiranju nvidia.com. To je gotovo 2,5× više tranzistora u odnosu na prethodni NVIDIA Hopper H100 (~80 milijardi) i čini Blackwell najkompleksnijim čipom ikad napravljenim cudocompute.com nvidianews.nvidia.com. Kako bi to postigla, NVIDIA je primijenila multi-die arhitekturu: dva GPU jezgra na granici retikule postavljena su na jedan modul i povezani su brzim međučipovskim interfejsom koji postiže 10 terabajta u sekundi nvidia.com cudocompute.com. U praksi, ta dva jezgra djeluju kao ujedinjeni GPU, što Blackwellu omogućuje drastično skaliranje broja jezgri i memorije na čipu uz zadržavanje kompatibilnosti s proizvodnim ograničenjima. Svaki Blackwell GPU die dolazi s četiri stoga nove generacije HBM3e brze memorije (ukupno osam per GPU modul), što omogućuje do 192 GB HBM memorije na najjačim modelima cudocompute.com. Ukupna propusnost memorije doseže ogromnih ~8 TB/s po GPU (dva jezgra zajedno), što je 5× više od propusnosti Hopper memorije cudocompute.com. Ovaj značajan kapacitet i protočnost memorije omogućuju Blackwellu pokretanje AI modela do ~740 milijardi parametara u memoriji – otprilike 6× više nego što je Hopper mogao podržati cudocompute.com.

Osim same veličine, Blackwell uvodi šest transformacijskih tehnologija u svoju arhitekturu nvidianews.nvidia.com nvidianews.nvidia.com:

Sljedeca generacija GPU superčipa: Kao što je rečeno, Blackwell je prvi NVIDIA GPU izrađen kao dvojezgreni “superčip.” Ovakva konstrukcija omogućuje nezapamćenu paralelnost i gustoću računanja u jednom akceleratoru. Jedan Blackwell GPU pruža 5× AI performanse H100 (pet puta više od Hoppera) zahvaljujući većim razmjerima i novim jezgrama cudocompute.com cudocompute.com. Podržava memoriju na čipu koja višestruko nadilazi dosadašnje generacije (gotovo 200 GB po GPU-u), što je ključno za današnje golemo modele.
Transformer Engine druge generacije: Blackwell dolazi s poboljšanim Transformer Engine (TE) pogonom za ubrzavanje AI izračuna, posebno za Transformer modele poput velikih jezičnih modela (LLM). Novi TE uvodi podršku za 4-bitnu floating point (FP4) preciznost i napredne “micro-tensor scaling” tehnike kako bi zadržao točnost i na toj niskoj preciznosti nvidia.com nvidianews.nvidia.com. U praksi, to znači da Blackwell može udvostručiti efektivni throughput i veličinu modela za AI inferenciju koristeći 4-bitne težine/aktivacije gdje je prikladno (uz minimalan gubitak točnosti). Blackwell Tensor Cores nude oko 1,5× više AI FLOPS nego prije i uključuju specijalizirani hardver za 2× bržu obradu Transformer attention slojeva, koji su usko grlo u LLM-ovima nvidia.com. U kombinaciji s NVIDIA softverom (TensorRT-LLM compiler i NeMo library), to daje do 25× nižu latenciju i potrošnju energije za LLM inferenciju u odnosu na Hopper nvidianews.nvidia.com nvidianews.nvidia.com. Štoviše, Blackwell može posluživati modele s bilijun parametara u stvarnom vremenu – što prije nije bilo moguće ni s jednim GPU-om nvidianews.nvidia.com.
Peta generacija NVLink interkonekta: Za skaliranje rada izvan jednog GPU-a, Blackwell uvodi NVLink 5, najnoviji NVIDIA-ov brzi međuspojski sustav za povezivanje više GPU-ova. NVLink 5 pruža 1,8 TB/s dvosmjerne propusnosti po GPU-u, što omogućuje povezivanje do 576 GPU-ova u jednom klasteru s brzom all-to-all komunikacijom nvidia.com nvidianews.nvidia.com. Za usporedbu, Hopperov NVLink je dopuštao oko 18 GPU-ova po serveru; Blackwellovi novi NVLink Switch čipovi omogućuju kreiranje NVL72 domene od 72 GPU-a koji rade kao jedan veliki akcelerator nvidia.com nvidia.com. NVLink Switch nudi agregatnih 130 TB/s propusnosti u 72-GPU podsklopu nvidia.com. Ovo je ključno za treniranje AI modela s više bilijuna parametara, gdje je potrebno više desetaka ili stotina GPU-ova bez komunikacijskih uskih grla. Novi NVLink također podržava NVIDIA-in SHARP protokol za hardversko ubrzanje kolektivnih operacija (poput all-reduce) s FP8 preciznošću, dodatno povećavajući efikasnost pri više GPU konfiguracijama nvidia.com cudocompute.com.
RAS Engine – Pouzdanost, dostupnost, održavanje: Budući da Blackwell sustavi mogu neprekidno obrađivati masivne AI zadatke tjednima ili mjesecima, NVIDIA je ugradila namjenski hardver za pouzdanost. Svaki GPU ima poseban RAS engine koji neprestano nadzire tisuće mjernih točaka za rane znakove kvara ili pada performansi nvidia.com nvidia.com. Ovaj engine koristi prediktivne AI analize za predviđanje mogućih problema i može unaprijed označiti komponente za servisiranje, čime se smanjuje neplanirani zastoj. Omogućuje detaljnu dijagnostiku i pomaže u koordinaciji održavanja – ključne funkcije pri skaliranju AI infrastrukture na “tvornice AI-ja” s desecima tisuće GPU-ova u podatkovnim centrima nvidia.com nvidia.com.
Sigurna AI obrada: Blackwell je prvi GPU s ugrađenim mogućnostima Povjerljivog računarstva (Confidential Computing). Implementira zaštićeno okruženje za izvršavanje s enkripcijom i izolacijom memorije (TEE-I/O), tako da se osjetljivi podaci i modeli mogu sigurno obrađivati u GPU memoriji bez rizika izloženosti nvidia.com. Značajno je da Blackwellova enkripcija ima zanemariv utjecaj na performanse, gotovo isti throughput kao i normalni mod nvidia.com. To je posebno privlačno industrijama gdje je privatnost kritična, poput zdravstva i financija, koje sada mogu pokretati AI zadatke na dijeljenoj infrastrukturi uz jamstvo povjerljivosti podataka nvidianews.nvidia.com. Od sigurne analize medicinskih snimki do zajedničkog treniranja na privatnim skupovima podataka, Blackwell omogućuje nove scenarije uklanjanjem sigurnosnih prepreka.
Dekompresija i ubrzanje podataka: Kako bi nahranio svoje snažne jedinice za izračun, Blackwell dodaje Decompression Engine koji skida zadatak dekompresije podataka s CPU-a i prebacuje ga na GPU hardver nvidia.com nvidia.com. Suvremeni analitički lanci često komprimiraju skupove podataka (npr. LZ4, Snappy) radi veće učinkovitosti pohrane i I/O-a – Blackwell te podatke može dekomprimirati u hodu, izbjegavajući CPU uska grla. Uz to, u spoju s NVIDIA Grace CPU-om, Blackwell može izravno pristupiti sistemskoj memoriji brzinom 900 GB/s kroz NVLink-C2C, što omogućuje brzo procesiranje ogromnih setova podataka nvidia.com nvidia.com. Zajedno, ove mogućnosti ubrzavaju zadatke vezane za podatke kao što su ETL, SQL analitike i preporučiteljski sustavi. NVIDIA očekuje da će u narednim godinama, sve više desetaka milijardi dolara uloženih u obradu podataka prijeći na GPU-ubrzane pristupe nvidianews.nvidia.com.

Benchmark performansi: Zahvaljujući navedenim inovacijama, Blackwell donosi generacijski skok u performansama. Pri istoj preciznosti, jedan vrhunski Blackwell GPU (B100 model) nudi otprilike 5× veći AI throughput za treniranje od H100 (Hopper) i oko 25× throughput u odnosu na stariji Ampere A100 cudocompute.com nvidianews.nvidia.com. Na primjer, Blackwell može postići do 20 PetaFLOPS AI računanja s FP8/FP6 preciznošću, naspram ~8 PFLOPS kod H100 cudocompute.com. Još impresivnije, s FP4 doseže 40 PFLOPS, pet puta više od Hopperovih mogućnosti na FP8 cudocompute.com. U praksi, to znači da zadaci poput GPT-3 (175 milijardi parametara) inferencije, koji su na H100 trajali nekoliko sekundi, na Blackwellu traju djelić sekunde. NVIDIA navodi da Blackwell omogućuje stvarnu vremena inferenciju na modelima do 10× većim nego što je prije bilo moguće nvidianews.nvidia.com. Rani industrijski benchmarkovi to potvrđuju – u MLPerf testovima inferencije, sustavi s novim Blackwell GPU-ovima nadmašili su svu konkurenciju, dok su čak i najnoviji AMD MI300 akceleratori dostigli performanse Nvidijinog prošlogodišnjeg H100/H200 na manjim LLM-ovima spectrum.ieee.org. U jednoj Llama-70B usporedbi, Blackwell sustavi ostvarili su 30× veći throughput od jednakog broja H100 GPU-ova, uz znatno manju potrošnju energije nvidianews.nvidia.com.

Vrijedi napomenuti da ostvarivanje ovih poboljšanja u praksi ovisi o optimizaciji softvera. NVIDIA-in pristup “full-stack” – od CUDA biblioteka do novog TensorRT-LLM kompajlera – omogućuje aplikacijama jednostavno iskorištavanje značajki Blackwella. Primjerice, automatska skalabilnost preciznosti u Transformer Engineu omogućuje korisnicima da iskoriste FP4 ubrzanja uz minimalne izmjene koda nvidia.com. Ova tijesna integracija hardvera i softvera ključna je prednost za NVIDIA-u. Nasuprot tome, konkurenti se često bore sa zrelošću softvera; industrijski analitičari ističu da, iako je AMD-ov MI300 hardver „dostiže” Nvidia-u, njegov softverski ekosustav još uvijek zaostaje za CUDA-om po jednostavnosti korištenja i optimizaciji research.aimultiple.com research.aimultiple.com.

Inovacije u odnosu na Hopper i Ampere

Blackwell uvodi nekoliko velikih arhitektonskih napredaka u odnosu na prijašnje generacije NVIDIA GPU-a:

Multi-Chip Module (MCM) dizajn: Hopper (H100) i Ampere (A100) bili su monolitni GPU-ovi na jednom kristalu. Blackwell je NVIDIA-in prvi izlet u MCM GPU – praktički dva GPU-a u jednom. To donosi drastično veći broj tranzistora (208 milijardi naspram 80 milijardi) i memorijski kapacitet (do 192 GB naspram 80 GB) cudocompute.com cudocompute.com. Konkurenti poput AMD-a predvodili su MCM GPU-e u seriji MI200/MI300, ali NVIDIA-ina izvedba ujedinjuje dvije jezgre u jedan adresni prostor GPU-a cudocompute.com, čime je programerima olakšan rad. MCM pristup također poboljšava iskoristivost proizvodnje (manji kristali lakše se proizvode) i skalabilnost za buduće dizajne.
Poboljšani Tensor Core-ovi i FP4 preciznost: Dok je Ampere uveo Tensor Core-ove, a Hopper dodao FP8 podršku kroz prvu generaciju Transformer Enginea, Blackwell podiže ljestvicu s nativnom podrškom za 4-bitnu preciznost nvidia.com. Dodaje “Ultra” Tensor Core-ove koji obrađuju FP4 matriks operacije i nove mikroskaling algoritme radi očuvanja preciznosti pri 4 bita nvidia.com. Ovo je značajno jer mnogi AI inferencijski zadaci mogu tolerirati nižu preciznost, pa FP4 može praktično udvostručiti protok podataka u odnosu na FP8. Blackwellovi Tensor Core-ovi su također bolje optimizirani za sparsity i obrasce pažnje u Transformerima, dok su Ampere/Hopper imali više općenite dizajne. Rezultat je veliki skok performansi na Transformer modelima (2× brža pažnja u Blackwellu) nvidia.com.
Memorija i interkonekcija: Blackwell koristi HBM3e memoriju s većim kapacitetom i širinom pojasa. Hopper H100 imao je 80 GB HBM (3 TB/s); Blackwell B100 nudi do ~192 GB HBM pri ~8 TB/s cudocompute.com. Osim toga, Blackwellov NVLink 5 drastično poboljšava skaliranje na više GPU-ova, kao što je ranije opisano. Hopper je mogao izravno povezati 8 GPU-ova u čvoru (s oko 0,6 TB/s po GPU-u); Blackwell može povezati 72 ili više na znatno većoj širini pojasa nvidia.com nvidianews.nvidia.com. Ovo odgovara zahtjevima skaliranja današnjeg distribuiranog treniranja na desecima GPU-ova, smanjujući komunikacijske troškove.
Povjerljivo računanje i RAS: Prijašnje arhitekture nudile su samo ograničenu sigurnost (npr. Hopper je uveo enkriptiranu VM izolaciju za višestruke GPU particije). Blackwell je prvi s potpunim povjerljivim računanjem na razini GPU-a, enkriptirajući podatke u obradi nvidia.com. Također je prvi NVIDIA-in GPU s posebnim RAS jezgrom za prediktivno održavanje nvidia.com. Ove značajke označavaju sazrijevanje GPU tehnologije za misijski kritične korporativne i cloud implementacije, gdje su dostupnost i privatnost podataka jednako važni kao i sirova brzina. Ampere i Hopper nisu imali takvu robusnu internu telemetriju i enkripciju za AI zadatke.
Novi motori za obradu podataka: Blackwellov hardver za dekompresiju predstavlja novost – prijašnji GPU-ovi su zadatke učitavanja podataka prepuštali CPU-ima ili DPU-ima. Ubrzavanjem zadataka poput JSON parsiranja ili dekodiranja komprimiranih podataka izravno na GPU-u, Blackwell može ubrzati pipeline-ove za podatke od početka do kraja, a ne samo matematičke AI izračune nvidia.com. To odražava širenje uloge GPU-a: od čistog ML akceleratora do općeg radnog konja za analitiku i ETL (Extract-Transform-Load). Ovo odražava industrijske trendove gdje se AI i analiza velikih podataka sve više konvergiraju.

Ukratko, Blackwellova poboljšanja u odnosu na Hopper/Ampere mogu se promatrati u pet ključnih dimenzija: (1) Računalna moć (više TFLOPS-a kroz veće čipove i FP4), (2) Memorija (veći kapacitet/širina pojasa), (3) Povezivost (NVLink klasteri), (4) Otpornost/sigurnost (RAS engine, enkripcija) i (5) Obrada podataka (enginei za kompresiju). Ova poboljšanja čine Blackwell znatno opremljenijim za rješavanje velikih AI sustava od njegovih prethodnika.

Odgovaranje na zahtjeve velikih AI treninga i izvedbe

Suvremeni granični AI modeli – bilo da se radi o višemilijardnim jezičnim modelima, složenim vision transformerima ili preporučiteljskim sustavima koji obrađuju petabajte podataka – zahtijevaju golemu računsku moć i memoriju. Blackwell je izričito dizajniran da odgovori na te izazove:

Neviđena skala modela: Kao što je navedeno, jedan Blackwell GPU može u memoriji smjestiti modele reda veličine 0,5–0,7 bilijuna parametara cudocompute.com. A ako to nije dovoljno, sustavi temeljeni na Blackwellu mogu se širiti na stotine GPU-ova s brzim interkonekcijama, omogućujući treniranje modela s desecima bilijuna parametara raspodijeljeno po GPU-ovima nvidianews.nvidia.com nvidia.com. Primjerice, NVIDIA-in DGX SuperPOD s Blackwellom može povezati 576 GPU-ova, nudeći oko 1,4 ExaFLOPS AI performansi i 30 TB objedinjene HBM memorije nvidianews.nvidia.com nvidianews.nvidia.com. Takva mogućnost omogućuje istraživanje GPT-4 i novijih, gdje veličina modela može biti višebilijunska. Ukratko, Blackwell rješava problem skaliranja sirovom snagom – veći čipovi i više njih, besprijekorno povezanih.
Veći protok, manja latencija: Za AI inferenciju, osobito interaktivne aplikacije (chatbotovi, obrada slike u stvarnom vremenu itd.), latencija i trošak su presudni. Blackwellove optimizacije za transformatore i FP4 preciznost izravno ciljaju učinkovitost inferencije, pružajući do 25× nižu latenciju i potrošnju energije po upitu za LLM-ove u odnosu na prethodnu generaciju nvidianews.nvidia.com. U praksi to znači da se upit prema modelu s 1 bilijunom parametara, koji je prije zahtijevao veliki GPU klaster, može sada poslužiti s manjim Blackwell klasterom, brže i po nižoj cijeni. Tvrtke poput OpenAI i Meta planiraju koristiti Blackwell za skalabilno posluživanje LLM-ova korisnicima, gdje je svako smanjenje troška po inferenciji značajno nvidianews.nvidia.com nvidianews.nvidia.com.
Učinkovitost i trošak treniranja: Treniranju vrhunskog modela može biti potreban računalni resurs vrijedan desetke milijuna dolara. Blackwell to želi smanjiti bržim treniranjem i boljim korištenjem resursa. Njegova kombinacija više FLOPS-a i bolje mreže znači da određeni klaster Blackwell GPU-ova može istrenirati model u dijelu vremena (ili, obrnuto, postići veću točnost u istom vremenu). NVIDIA tvrdi da treniranje velikih LLM-ova na Blackwellu može biti provedeno uz do 25× manju potrošnju energije nego na Hopperu nvidianews.nvidia.com. To nije isključivo zbog boljih čipova, već i softverskih poboljšanja (npr. kompajleri kompatibilni s Blackwellom, sheme miješane preciznosti). Brži ciklusi treniranja omogućuju istraživačima brže iteracije dizajna modela – ogroman poticaj za razvoj AI-ja.
Kapacitet memorije za veće serije i skupove podataka: Blackwellova proširena memorija je velika pogodnost za treniranje i inferenciju. Za treniranje može podržati veće serije ili dulje sekvence, što poboljšava učinkovitost treniranja i kvalitetu modela. Za inferenciju može smjestiti cijele modele ili dugačke kontekste (važan za LLM-ove sa složenim upitima) na jedan GPU, bez potrebe za sporim prebacivanjem u CPU memoriju. Štoviše, s vezom prema Grace CPU-u (900 GB/s), Blackwell GPU može prebaciti dodatne podatke u CPU memoriju bez većeg gubitka performansi nvidia.com. Ovo učinkovito stvara hijerarhiju memorije gdje GPU i CPU dijele koherentnu memoriju – korisno za ogromne skupove podataka za preporuke ili graf analitiku gdje radni skupovi prelaze kapacitet GPU memorije.
Stalna pouzdanost: U korporativnom i cloud okruženju AI zadaci često rade kao usluge bez prestanka. Blackwellove značajke pouzdanosti (RAS engine) znače da može raditi takve dugotrajne zadatke uz minimalne prekide, automatski otkrivajući probleme poput grešaka u memoriji, kvarova veza ili toplinskih anomalija i obavijestiti operatere nvidia.com nvidia.com. Ovo odgovara stvarnim potrebama: kako tvrtke uvode AI u proizvodnju (npr. žive preporuke, autonomni roboti), hardver treba biti pouzdan kao tradicionalna IT infrastruktura. Blackwell ide u tom smjeru, uvodeći razinu pouzdanosti poznatu iz ključnih CPU-a i servera.

U sažetku, Blackwell se izravno obraća potrebama „AI tvornica” – velike AI infrastrukture koja pokreće sve od istraživačkih laboratorija do cloud AI servisa nvidianews.nvidia.com. Pruža razmjer, brzinu, učinkovitost i robustnost potrebnu kako AI modeli i skupovi podataka nastavljaju svoj eksponencijalni rast.

Primjeri upotrebe i primjene kroz industrije

NVIDIA Blackwell ne znači samo pomicanje granica performansi – dizajniran je da otključa nove primjene umjetne inteligencije u raznim područjima. Ovdje analiziramo kako će Blackwell GPU-ovi utjecati na nekoliko ključnih domena:

Generativna umjetna inteligencija i veliki jezični modeli (LLM)

Uspon generativne umjetne inteligencije (GPT-3, GPT-4, itd.) glavni je pokretač razvoja Blackwella. Blackwell GPU-ovi izvrsni su i za treniranje i za implementaciju velikih jezičnih modela:

Treniranje golemih modela: Istraživački laboratoriji i kompanije poput OpenAI, Google DeepMind i Meta treniraju sve veće LLM-ove. Blackwell omogućuje sesije treniranja koje su ranije bile nepraktične. Sa skalabilnošću više GPU-ova i bržom propusnošću, moguće je trenirati modele s bilijunima parametara ili trenirati modele s više od 100 milijardi parametara u znatno kraćem vremenu. Zapravo, direktor Mete je izjavio da se “raduju korištenju NVIDIA Blackwella za treniranje svojih open-source Llama modela i razvoj sljedeće generacije Meta AI-ja” nvidianews.nvidia.com. Brži iteracijski ciklus znači više eksperimentiranja i vjerojatno proboje u sposobnostima modela. Nadalje, Blackwellov Transformer Engine optimiziran je za transformer mreže, što omogućuje bolju iskorištenost hardvera i niže troškove za postizanje željene točnosti.
Skaliranje usluga LLM inferencije: Pokretanje usluge temeljene na LLM-ovima (npr. chatbot koji opslužuje milijune korisnika) izuzetno je računalno zahtjevno. Blackwell znatno smanjuje potreban hardver za zadani opseg usluge. Jensen Huang je izjavio da Blackwell “omogućuje organizacijama izvođenje generativne AI u stvarnom vremenu na modelima s bilijunima parametara uz do 25× manje troškove” nego prije nvidianews.nvidia.com. Za cloud pružatelja znači da ekonomski mogu nuditi GPT-slične usluge korisnicima. Otvara se i mogućnost aplikacija u stvarnom vremenu – npr. asistenti koji mogu brzo proći kroz goleme dokumente ili odgovarati na vrlo složene upite zahvaljujući niskoj latenciji Blackwella. Sundar Pichai iz Googlea istaknuo je kako Google planira koristiti Blackwell GPU-ove diljem Google Clouda i Google DeepMind-a za “ubrzavanje budućih otkrića” i učinkovitiju opskrbu vlastitih AI proizvoda nvidianews.nvidia.com.
Mixture-of-Experts (MoE) modeli: Blackwellova arhitektura (velika memorija + brza međuveza) također pogoduje MoE modelima, koji dinamički usmjeravaju ulaze prema različitim “ekspert” podmodelima. Takvi modeli mogu skalirati do bilijuna parametara ali zahtijevaju brzu komunikaciju među ekspertima (često raspoređenima na više GPU-ova). NVLink Switch i velika GPU memorija pomažu da MoE ostane učinkovit, što može omogućiti novi val modela rijetke ekspertize koji su dosad bili ograničeni propusnosti hardvera nvidia.com cudocompute.com.

Robotika i autonomna vozila

Hardver za umjetnu inteligenciju postaje sve važniji u robotici – kako za treniranje robota u simulacijama, tako i za pogon AI “mozgova” unutar robota/vozila:

Istraživanje i simulacija u robotici: Treniranje upravljačkih politika robota (npr. za dronove, industrijske robote) često koristi velike simulacijske okoline i “reinforcement learning”, što intenzivno koristi GPU-ove. Blackwell može ubrzati simulacije fizike (Omniverse, Isaac Sim itd.) te treniranje upravljačkih mreža. NVIDIA je izvijestila da su Grace+Blackwell sustavi postigli do 22× brže simulacije dinamike u odnosu na CPU sustave cudocompute.com. To znači brži razvoj planiranja gibanja robota, bolje digitalne blizance za tvornice i pristupačno treniranje za kompleksne robotske zadatke. Istraživači mogu pokretati bogatije simulacije (veća vjernost ili više agenata) na jednoj Blackwell jedinici nego prije, što dovodi do bolje istreniranih robota.
Autonomna vozila (AV) – Drive Thor platforma: NVIDIA-ino AI računalo za automobile, DRIVE Thor, gradit će se na Blackwell GPU arhitekturi nvidianews.nvidia.com. Ova platforma je namijenjena novoj generaciji autonomnih automobila, robotaxija i kamiona. Blackwellove prednosti u transformers i AI inferenciji prate novije trendove u AV softveru – primjerice korištenje transformer modela za percepciju ili velikih jezičnih modela za asistente u kabini. DRIVE Thor s Blackwellom može isporučiti do 20× veće performanse od trenutne Orin platforme (temeljene na Ampereu), dok ujedinjuje obradu slike, radara, lidara i čak AI za zabavu u autu na jednom računalu medium.com. Vodeći proizvođači vozila i AV kompanije (BYD, XPENG, Volvo, Nuro, Waabi i drugi) već su najavili namjeru uvođenja DRIVE Thor-a u vozila lansirana od 2025. naovamo nvidianews.nvidia.com nvidianews.nvidia.com. To omogućuje autonomiju četvrte razine, naprednije vozačke asistencije i čak generativnu AI u automobilu (za glasovne asistente ili zabavu putnika). Ukratko, Blackwell u autu donosi AI snagu za analizu brojnih senzorskih ulaza u stvarnom vremenu i donošenje sigurnih vozačkih odluka.
Industrijski i robotski sustavi u zdravstvu: Blackwell nalazi primjenu i u specijaliziranim robotima u zdravstvu i industriji. Primjerice, na GTC 2025 na Tajvanu prikazani su medicinski roboti pokretani AI-jem koji koriste Blackwell GPU-ove za AI obradu worldbusinessoutlook.com. To uključuje autonome mobilne robote po bolnicama i humanoidne asistente koji komuniciraju s pacijentima. Svaki robot koristi Blackwell GPU u kombinaciji s velikim jezičnim modelom (“Llama 4”) i NVIDIA-ino AI za prepoznavanje govora (Riva) za prirodnu komunikaciju s ljudima worldbusinessoutlook.com. Blackwell GPU daje snagu za razumijevanje govora, izvođenje zaključivanja na LLM-u i upravljanje robotskim djelovanjem u realnom vremenu. Testiranja u bolnicama pokazala su bolju uslugu za pacijente i manje opterećenje osoblja zahvaljujući tim AI robotima worldbusinessoutlook.com worldbusinessoutlook.com. U industriji, Blackwell-pogonjeni robotski sustavi mogu izvoditi napredne inspekcije slike ili koordinaciju flote skladišnih robota s planiranjem temeljenim na AI-ju. Dodatne performanse omogućuju implementaciju složenijih AI modela na robote, čineći ih pametnijima i autonomnijima.

AI usluge u podatkovnim centrima i cloud infrastrukturi

S obzirom na svoju skalabilnost, Blackwell najviše dolazi do izražaja u podatkovnom centru, gdje će pogoniti javne cloud usluge i privatnu AI infrastrukturu u poduzećima:

Cloud AI instance: Svi veliki cloud pružatelji – Amazon AWS, Google Cloud, Microsoft Azure i Oracle – najavili su Blackwell temeljene GPU instance nvidianews.nvidia.com. To znači da startupi i poduzeća mogu unajmiti Blackwell akceleratore po potrebi za treniranje modela ili izvođenje AI aplikacija. Cloud provider-i čak i izravno surađuju s NVIDIA-om na custom sustavima; AWS je otkrio zajednički inženjerski projekt “Project Ceiba” za integraciju Grace-Blackwell superčipova s AWS mrežom za NVIDIA istraživanja i razvoj nvidianews.nvidia.com. S Blackwellom u oblaku, male AI kompanije ili istraživačke grupe dobivaju pristup najnaprednijem hardveru koji je dosad bio rezerviran za najveće igrače – donekle demokrati-zirajući mogućnost treniranja ogromnih modela ili izvođenja AI-a u velikoj skali.
Poduzeća “tvornice umjetne inteligencije”: Mnoge organizacije stvaraju interne AI podatkovne centre (NVIDIA ih zove AI tvornice) radi razvoja i implementacije AI modela za vlastito poslovanje. Lansiranje Blackwella prati niz referentnih dizajna poput NVIDIA MGX servera i DGX SuperPOD-a, koji olakšavaju organizacijama izradu Blackwell klastera nvidianews.nvidia.com. Primjerice, Dell, HPE, Lenovo i Supermicro izbacuju servere s Blackwell HGX pločama (8× B200 GPU-ova po ploči) nvidianews.nvidia.com nvidianews.nvidia.com. Takav klaster može pogoniti sve – od interne analitike do korisnički okrenutih AI značajki. Posebno je značajna i energetska učinkovitost: Blackwellova poboljšanja znače niže troškove treniranja i inferencije, čineći AI financijski održivim u više scenarija. Jensen Huang tvrdi da s Blackwellom industrija “prijelazi u GPU-akcelerirane AI tvornice” kao novu normu za IT infrastrukturu poduzeća research.aimultiple.com research.aimultiple.com. Primjećujemo to u suradnjama poput NVIDIA-e s farmaceutskom kompanijom Lilly za AI otkrivanje lijekova u vlastitim podatkovnim centrima i s IT tvrtkama kao Foxconn za pametnu proizvodnju – sve uz Blackwell sustave research.aimultiple.com.
Analitika, HPC i znanost: Nije riječ samo o neuronskim mrežama – Blackwell se koristi i za ubrzanje klasičnog računarstva visokih performansi (HPC) i analitike podataka. Press objave ističu slučajeve inženjerske simulacije, EDA (dizajn čipova), pa čak i istraživanja kvantnog računanja koji profitiraju od Blackwella nvidianews.nvidia.com. Dobavljači softvera Ansys, Cadence i Synopsys (ključni za simulacije i elektronički dizajn) optimiziraju svoje alate za Blackwell GPU-ove nvidianews.nvidia.com. Primjerice, strukturna simulacija koja je trajala satima na CPU klasterima može biti značajno ubrzana zahvaljujući Blackwell computationu. Slično u zdravstvu, “računalno potpomognuto otkrivanje lijekova” može koristiti Blackwell GPU za brže pretraživanje spojeva ili simulaciju interakcija proteina nvidianews.nvidia.com. Velika medicinska središta i laboratoriji također koriste GPU-akceleriranu genomiku i medicinsku sliku; Blackwell tu dodatno doprinosi svojom velikom memorijom (bitno za genomsku bazu podataka) i sigurnim računanjem (važnim za privatnost pacijenata) nvidianews.nvidia.com. Ukratko, Blackwell u podatkovnom centru je univerzalni akcelerator – ne samo za AI modele već za sve zadatke koji mogu iskoristiti paralelno računanje, od “big data” do znanstvenih istraživanja.

Zdravstvo i biotehnologija

Sektor zdravstva ima velike potencijalne koristi od AI temeljenog na Blackwellu zbog potrebe za obradom velikih i osjetljivih skupova podataka:

Medicinska slika i dijagnostika: Neuronske mreže koriste se za otkrivanje bolesti na slikama poput MRI, CT i rendgenskim snimkama. Ovi modeli (npr. otkrivanje tumora) često zahtijevaju vrlo visoku rezoluciju i velike 3D volumene. Blackwellova memorija i računska snaga omogućuju analizu snimki cijelog tijela ili patoloških preparata visoke rezolucije odjednom, što je bilo teško s manjim GPU-ovima. Nadalje, značajka povjerljivog računarstva omogućuje bolnicama da provode analize na dijeljenim cloud serverima bez rizika od curenja podataka pacijenata nvidia.com nvidianews.nvidia.com. Ovo može ubrzati implementaciju AI dijagnostičkih alata, čak i među bolnicama koje dijele isti cloud, jer svaka može zadržati podatke kriptiranim.
Genomika i otkrivanje lijekova: Podaci iz sekvenciranja genoma i molekularne simulacije stvaraju ogromne skupove podataka. Blackwellova dekompresija i sinergija s Grace CPU memorijom mogu ubrzati genomsku obradu (npr. komprimiranje podataka u CPU memoriju i strujanje na GPU za poravnanje ili otkrivanje varijanti). NVIDIA je istaknula da baze podataka i Spark analitika značajno dobivaju – primjerice, Blackwell s Grace CPU ostvario je 18× ubrzanje u obradi baza podataka u odnosu na sustave samo s CPU-om cudocompute.com cudocompute.com. Za farmaceutske tvrtke koje provode virtualni screening milijardi spojeva, Blackwell može drastično skratiti vrijeme selekcije kandidata, zapravo djelujući kao superračunalo zapakirano za otkrivanje lijekova.
AI u kliničkim procesima: Rani primjer medicinskih robota u pametnoj bolnici (Mackay Memorial u Tajvanu) ilustrira kako Blackwell omogućuje nove kliničke primjene worldbusinessoutlook.com worldbusinessoutlook.com. Ti roboti koriste Blackwell GPU-ove u samoj bolnici za razumijevanje govora, dohvat medicinskih podataka i kretanje po bolnici. Šire gledano, bolnice bi mogle koristiti Blackwell servere kao centralizirane AI hubove – za sve od predviđanja pogoršanja stanja pacijenata (veliki vremenski modeli na vitalnim znakovima) do optimizacije operacija (upravljanje krevetima pomoću reinforcement learninga). Blackwellove RAS značajke jamče pouzdan rad ovih kritičnih sustava 24/7, a sigurnosni enclave čuvaju privatnost prilikom treniranja modela na osjetljivim medicinskim zapisima. Kako je izjavio jedan bolnički direktor iz pilot-projekta robota, „ovo partnerstvo poboljšava kvalitetu usluge pacijentima i optimizira interne procese” worldbusinessoutlook.com – izjava koju će mnogi ponavljati kako se AI bude sve više integrirao u zdravstvo.

Usporedba Blackwella s drugim AI akceleratorima

Iako NVIDIA trenutno predvodi tržište AI akceleratora, Blackwell se suočava s konkurencijom alternativnih hardverskih platformi. Ovdje uspoređujemo Blackwell s ključnim konkurentima:

AMD Instinct MI300 serija (i nasljednici)

AMD-ova Instinct linija glavni je GPU konkurent NVIDIJI u AI obradi podatkovnog centra. Najnoviji MI300X i MI300A akceleratori (temeljeni na AMD CDNA3 arhitekturi) dijele neke dizajnerske filozofije s Blackwellom – osobito, koriste dizajn temeljen na chipletima i HBM memoriju. MI300A je APU koji kombinira CPU i GPU u jednom paketu (podsjeća na NVIDIJIN koncept Grace+Blackwell superchipa), dok je MI300X samo GPU varijanta s 192 GB HBM3 memorije. Što se tiče performansi, AMD tvrdi da MI300X može parirati ili čak nadmašiti NVIDIJIN Hopper (H100) kod određnih inferencijskih zadataka research.aimultiple.com research.aimultiple.com. Neovisni MLPerf rezultati pokazali su da AMD MI325 (varijanta MI300) ima performanse usporedive s Nvidia H100 (osvježena verzija “H200”) na Llama-70B jezičnom modelu spectrum.ieee.org. No, Blackwell je i dalje daleko ispred u najvišoj klasi – prema jednoj analizi, ako je sirova propusnost (tokeni/sec pri niskoj latenciji) kriterij, „NVIDIA Blackwell igra u svojoj ligi” među akceleratorima 2024–2025 ai-stack.ai. Prva testiranja sugeriraju da B100 značajno nadmašuje MI300X (možda 2–3× u throughputu za transfomere), ali uz visoku potrošnju energije.

Jedna prednost AMD-a je isplativost i otvorenost. MI300 GPU-ovi podržavaju alternativne softverske platforme poput ROCm-a, a AMD aktivno radi s otvorenim AI frameworkovima (čak surađuje s Meta i Hugging Face na optimizaciji modela za AMD GPU-ove research.aimultiple.com). Za neke cloud providere i korisnike u Kini (koji su ograničeni NVIDIJINIM izvoznim restrikcijama research.aimultiple.com), AMD GPU-ovi su atraktivna alternativa. Ipak, AMD-ov izazov ostaje softverski ekosustav – CUDA i NVIDIJINI libraryji još uvijek imaju bolju podršku. Znakovito je da je došlo do javnog spora kad su NVIDIA i AMD mjerili performanse svojih GPU-ova: pravi softverski parametri čine veliku razliku, a mnogi i dalje smatraju da je NVIDIJIN softverski stack uglađeniji research.aimultiple.com research.aimultiple.com. Ukratko, AMD MI300 serija konkurira NVIDIJINOJ prošloj generaciji (Hopper), a sljedeća generacija (MI350, koja će konkurirati Blackwell/H200 research.aimultiple.com) pokušat će smanjiti zaostatak. No trenutno, Blackwell i dalje drži prednost u vrhunskim performansama, osobito za najveće modele i klaster implementacije.

Intel (Habana Gaudi i nadolazeći “Falcon Shores”)

Intelova ulaganja u AI akceleratore imaju dva smjera: preuzeta linija Habana Gaudi za AI treniranje i Intelove vlastite GPU arhitekture (Xe HPC). Gaudi2 akcelerator (predstavljen 2022.) ponudio je alternativu za NVIDIJU A100 u treniranju, s konkurentnim performansama na ResNet i BERT testovima uz nižu cijenu. No Gaudi2 se mučio s prihvaćanjem softvera, a iako je Gaudi3 najavljen, Intelova prodajna očekivanja za njega su skromna (~500M dolara u 2024.) research.aimultiple.com research.aimultiple.com. Intel je nedavno napravio strateške zaokrete – ambiciozni projekt Falcon Shores, zamišljen kao hibridni CPU+GPU XPU za natjecanje s Grace Hopperom, doživio je odgode i promjene plana. Intel je prvotno „de-XPU-irao” Falcon Shores u GPU-only dizajn i planira ga za izlazak 2025. hpcwire.com hpcwire.com. Postoje čak izvještaji da bi Intel mogao otkazati ili drastično preusmjeriti ove hi-end AI čipove prema specifičnim nišama (kao akceleratori za inferenciju) gdje imaju prednost crn.com bloomberg.com.

U međuvremenu, Intelov najkonkretniji proizvod je Ponte Vecchio / Max Series GPU, koji pokreće Aurora superračunalo. Ponte Vecchio je složen GPU s 47 pločica koji je godinama kasnio, a njegovi derivati (poznati kao Rialto Bridge) su otkazani. Aurora GPU-ovi ostvaruju dobre FP64 HPC performanse, ali u AI-u su približno na razini A100/H100 u mnogim zadacima. Intelov izazov su izvedba i razmjer – njihove arhitekture su teoretski snažne, ali izbaciti čipove na vrijeme i s kvalitetnim driverima pokazuje se vrlo zahtjevnim.

U izravnoj usporedbi, Blackwell vs Intel: trenutno ne postoji Intelov proizvod koji izravno izaziva Blackwellovu kombinaciju performansi treniranja i ekosustava. Čini se da Intelova strategija prelazi na korištenje njihovih CPU-a (s AI ekstenzijama) i možda manjih Gaudi akceleratora za inferenciju, umjesto da se natječe u najvećim treniranim klasterima. Kako je jedan HPC analitičar rekao, čini se da Intel “priznaje tržište treniranja AI GPU konkurentima” i fokusira se na lakše pobjede hpcwire.com. Posljedica je da će Blackwell vjerojatno dominirati segmentom vrhunskog treniranja bez konkurencije Intela do najmanje 2025./2026., kada/ako Falcon Shores debitira. Čak i tada, kruže glasine da bi Falcon Shores mogao ciljati nišu (moguće vrlo visokopotrošni dizajn od 1500W za specifične radne opterećenja) reddit.com wccftech.com, pa je nejasno hoće li doista konkurirati Blackwell-temeljenom DGX-u u općoj uporabi. Za sada, Intel ostaje daleko treći u AI akceleraciji, s snagom u CPU-ima koja je i dalje relevantna (npr. mnogi AI sustavi koriste Intel Xeon hostove, a Intel je ugradio AI instrukcije u CPU-e za lakša opterećenja).

Google TPU-ovi (Tensor Processing Units)

Google je slijedio drukčiji put sa svojim internim TPU-ovima, specijaliziranim ASIC čipovima namijenjenima radnim opterećenjima neuronskih mreža (osobito Googleove vlastite softverske platforme poput TensorFlowa). Najnovija javno dostupna generacija je TPU v4, koju je Google implementirao u svojim podatkovnim centrima i učinio dostupnom kroz Google Cloud. TPUv4 podovi (4096 čipova) navodno postižu oko 1 eksaflop BF16 izračuna i korišteni su za treniranje velikih modela poput PaLM-a. Iako su točne specifikacije djelomično vlasničke, TPUv4 je otprilike usporediv s NVIDIA-inom A100/H100 erom po performansama. Međutim, Google je nedavno najavio novu generaciju platforme kodnog imena “Trillium” TPU v5 (također spomenutu kao TPU v6 u nekim izvještajima, dok je Ironwood specifičan dizajn) research.aimultiple.com research.aimultiple.com. Ironwood TPU čip navodno nudi 4.614 TFLOPsa AI izračuna (najvjerojatnije INT8 ili BF16) po čipu i skalira do superpodova od 9216 čipova s 42.5 eksaflopsa research.aimultiple.com. Značajno, Googleov TPU v5 ima 192 GB HBM po čipu (kao i Blackwell), 7,2 TB/s propusnosti memorije (na razini ili većoj), te poboljšan međusobni spoj od 1,2 Tbps između čipova research.aimultiple.com. Također se ističe 2× većom energetskom učinkovitošću od TPUv4. Ove brojke pokazuju da su najnoviji Googleovi TPU-ovi u istoj klasi kao Blackwell u mnogim aspektima.

Razlika je u tome što TPU-ovi nisu široko dostupni izvan Googleove interne upotrebe i klijenata u cloudu. Sjajni su u radnim opterećenjima poput velikih matričnih množenja i pokretali su Googleove proizvode (Pretraga, Fotografije itd.), ali čine zatvoreniji ekosustav. Na primjer, TPU je optimiziran za TensorFlow i JAX radne tokove na Google Cloudu, dok se NVIDIA GPU-ovi koriste posvuda s brojnim okvirima. Uspoređujući Blackwell vs TPU za velikorazmjerni AI: Blackwell nudi veću fleksibilnost (podržava širi raspon tipova modela, prilagođene operacije itd.), dok TPU može pružiti nešto bolju učinkovitost u dobro definiranim Google radnim opterećenjima. Vjerojatno će Google nastaviti koristiti TPU-ove interno radi troškovne učinkovitosti, ali znakovito je da čak i Google planira ponuditi Blackwell GPU-ove na Google Cloudu uz svoje TPU-ove nvidianews.nvidia.com. To sugerira priznanje da mnogi korisnici preferiraju NVIDIA-in ekosustav ili trebaju veću svestranost. U sažetku, Googleovi TPU-ovi su impresivni – najnoviji pariraju Blackwellovim tehničkim specifikacijama – no služe užem tržištu. Blackwell zadržava prednost u općoj prihvaćenosti i softverskoj podršci, zbog čega čak i Google surađuje s NVIDIA-om (kako je Pichai naglasio, imaju “dugogodišnje partnerstvo” s NVIDIA-om za infrastrukturu) nvidianews.nvidia.com.

Cerebras (Wafer-Scale Engine)

Cerebras Systems zauzeo je jedinstven pristup izradom Wafer-Scale Engine (WSE) – AI čipa doslovno veličine cijelog silicijskog wafer-a. Trenutni WSE-2 ima 2,6 bilijuna tranzistora i 850.000 jednostavnih jezgri za izračune na jednom uređaju research.aimultiple.com, što nadmašuje bilo koji konvencionalni čip u broju tranzistora. Prednost ovog pristupa je u tome što sve te jezgre dijele brzu on-wafer memoriju i komunikaciju, čime se izbjegava potreba za međupovezivanjem više čipova. Za treniranje vrlo velikih modela, Cerebras ponekad može cijeli model držati na jednom waferu, eliminirajući složenosti paralelne distribucije. Međutim, svaka jezgra je prilično jednostavna, a taktovi su umjereni, pa se sirovi kapacitet obrade ne skalira izravno s brojem tranzistora. U praksi, Cerebras CS-2 sustav (s jednim WSE-2) pokazao je sposobnost treniranja modela poput GPT-3 na jednostavniji način (nije potreban GPU-stil paralelizacije kroz više čvorova), ali performanse po cijeni još se nisu jasno pokazale superiornim u odnosu na GPU-ove, osim u određenim slučajevima. Cerebras je nedavno predstavio WSE-3 s još većim brojem tranzistora (navodno 4 bilijuna tranzistora) research.aimultiple.com.

Uspoređujući s Blackwellom: Cerebras WSE može držati vrlo velike mreže u memoriji, no Blackwellova gusta računala i veća frekvencija znače da svaki Blackwell GPU može izvršiti više operacija u sekundi na tipičnim zadacima dubokog učenja. Na primjer, Blackwellovih 40 PFLOPS-a na FP4 je teško dostižno za Cerebras osim ako njihove značajke za “rijetke” podatke nisu u potpunosti iskorištene. Cerebras svoj sustav reklamira kao jednostavniji za skaliranje (samo dodajte više wafer-a za veće modele, povezane MemoryX i SwarmX infrastrukturom), i briljira kod vrlo velikih “rijetkih” modela ili kada je memorija usko grlo. No, za standardno treniranje gustih modela, klasteri GPU-ova (osobito s Blackwellovim poboljšanjima) još uvijek brže postižu rezultate. Ipak, Cerebras je našao svoju nišu u istraživačkim laboratorijima i nudi se kao cloud usluga samog Cerebrasa, privlačeći one koji žele izbjeći složenost programiranja više GPU-ova. Uvođenjem Blackwella, međutim, s ogromnom jedinstvenom memorijom i bržim međupovezivanjem, vjerojatno se smanjuje prednost na koju je Cerebras ciljao u veličini i skali modela.

Graphcore IPU

Graphcore, startup iz UK, razvio je Intelligence Processing Unit (IPU) s naglaskom na finozrnu paralelizaciju i veliku memorijsku propusnost po računalu. IPU čip sadrži mnogo manjih jezgri (1.472 jezgre u njihovom GC200 čipu) svaka s lokalnom memorijom, što omogućuje masivnu paralelnu izvedbu neuronskih mreža s nepravilnim strukturama. Graphcoreovi IPU-POD sustavi (npr. IPU-POD256 sa 256 čipova) pokazuju dobre performanse na nekim radnim opterećenjima poput rijetkih neuronskih mreža i graf neuronskih mreža. Graphcoreov pristup manje naglašava sirove TFLOPS-e, više izvođenje modela gdje su međuovisnosti kompleksne (a ne samo velika matrična množenja). Uspoređujući s NVIDIA-om: Graphcore tvrdi konkurentne rezultate u treniranju nekih vizualnih modela i učinkovitost na malim batch veličinama. Međutim, kako su se modeli razvili prema velikim gustim transformatorima, IPU-ovi su se borili da održe korak s potražnjom za FLOPS-ima i memorijom. Najnoviji Bow IPU koristi 3D-stack memoriju za veću propusnost, ali pojedinačni čipovi još uvijek imaju puno manje memorije (≈ 900MB po IPU) u odnosu na GPU, pa za velike modele treba mnogo IPU-ova i kompleksno dijeljenje podataka. NVIDIA Blackwell, s ogromnom memorijom i specijaliziranom akceleracijom transformatora, vjerojatno još više povećava jaz na najpopularnijim zadacima (LLM-ovi itd.). Graphcore se fokusira na specifična tržišta (ostvarili su rezultate u financijama i nekim istraživačkim institucijama research.aimultiple.com) i ističu potencijalno bolju energetsku učinkovitost za modele srednje veličine. Ipak, Blackwellove dobitke u učinkovitosti i softverski zamah (PyTorch itd. prvenstveno optimiziran za CUDA-u) stavljaju Graphcore u nepovoljan položaj za masovnu prihvaćenost. Ukratko, Graphcore IPU je inovativna arhitektura koja se natječe u nišama, ali Blackwell GPU-ovi ostaju preferirani “radni konj” za širok spektar AI zadataka.

Tenstorrent i ostali AI startupovi proizvođači čipova

Val startupa pokušava izazvati NVIDIA-u novim arhitekturama, često ciljajući na specifične niše poput energetske učinkovitosti ili jeftine inferencije:

Tenstorrent: Suosnivač je poznati arhitekt čipova Jim Keller, Tenstorrent dizajnira AI čipove na temelju fleksibilne dataflow arhitekture i koristi RISC-V jezgre. Njihov najnoviji čip, Wormhole, nudi se kao PCIe kartica i server (kao Tenstorrentov Galaxy sustav) za AI treniranje i inferenciju research.aimultiple.com. Tenstorrent naglašava modularni dizajn i čak je licencirao svoj IP za korištenje u tuđim SoC-ovima. Nedavno su prikupili značajna sredstva (preko 200 milijuna dolara, uključujući ulaganje Jeffa Bezosa) kao okladu protiv NVIDIA-e research.aimultiple.com. Čini se da je Tenstorrentova strategija postati licencibilan AI akcelerator koji bi se mogao integrirati u razne sustave (čak za automotive ili edge). Što se tiče performansi, postoji malo javnih podataka; vjerojatno su konkurentni s NVIDIA karticama srednjeg ranga na ResNetu ili manjim Transformer modelima, ali nisu blizu Blackwellovom vrhu. Njihova arhitektura mogla bi briljirati u nisko-potrošnim ili edge podatkovnim centrima zbog RISC-V mogućnosti programiranja i potencijalno veće učinkovitosti. Ako nastave s inovacijama, Tenstorrent bi mogao pronaći svoju nišu, ali u kratkom roku Blackwell dominira po apsolutnim performansama i ekosustavu.
Mythic, Groq, d-Matrix, itd.: Nekoliko startupa cilja na akceleraciju inferencije nekonvencionalnim metodama. Mythic koristi analognu izračunsku memoriju za matrična množenja uz vrlo nisku potrošnju. Groq (osnovan od bivših Googleovaca koji su radili na TPU-u) stvorio je procesor koji obrađuje upute u determinističkom pipelineu (“procesor za tok tenzora”), i ističe nisku latenciju i visoke performance kod batch-1 – Groq tvrdi prednosti na nekim real-time inferencijskim zadacima. d-Matrix razvija čipove za ubrzanje inferencije velikih jezičnih modela korištenjem digitalnog “in-memory” pristupa. Ovi startupi zahvaćaju dio tržišta gdje je NVIDIA možda previše ili neučinkovita: npr. Mythic za ultranisko-potrošne edge uređaje, Groq za sustave kritične za latenciju, d-Matrix za isplativo posluživanje LLM-ova. No, svi se suočavaju s izazovima oko softverske integracije i ograničenog dosega. Groq čvor može nadmašiti podiskorišteni GPU u specifičnom real-time zadatku, ali Blackwellova veličina i zreo softver čine ga sigurnijim izborom za većinu podatkovnih centara. Značajno je da i sama NVIDIA ulazi na područje inferencije s optimiziranim softverom (npr. Triton Inference server) i Grace Hopper kombinacijama za učinkovitu inferenciju. To znači da startupi moraju biti daleko ispred u niši. Nitko od njih za sada ne prijeti Blackwellovoj poziciji u vrhunskom treniranju, ali pridonose raznolikom akceleratorskom pejzažu.
AWS Trainium i drugi: Povrh navedenih, neki cloud provideri razvijaju vlastite AI čipove (AWS-ov Trainium za treniranje i Inferentia za inferenciju, Microsoftov navodno Athena čip itd.). Trainium v2 klasteri navodno se koriste unutar AWS-a (npr. za treniranje modela tvrtke Anthropic) research.aimultiple.com. Ovi custom čipovi nastoje smanjiti ovisnost o NVIDIA-i i optimizirati za specifična radna opterećenja kod cloud operatera (često uz niže troškove). Iako nisu “startupi”, važni su konkurenti jer mogu preuzeti dio tržišta NVIDIA-i u cloud upotrebi. Prihvaćenost Blackwella od strane clouda pokazuje da je NVIDIA i dalje iznimno tražena, ali dugoročni konkurentski pritisak in-house silicija utjecat će na cijene i značajke.

Zaključak: NVIDIA Blackwell trenutno predstavlja vrhunac AI akceleratora 2025. godine, ali konkurencija je snažna. AMD brzo sustiže (osobito u inferenciji i GPU-ovima s mnogo memorije), Googleovi TPU-ovi predstavljaju izazov NVIDIA-i na razini superračunala (iako samo unutar Googlea), a startupi i alternative inoviraju u području učinkovitosti i integracije. Kako navodi jedna Bloombergova analiza, “Za korisnike koji žure trenirati AI sustave… prednost Hopper i Blackwell čipova je presudna”, ali pitanje je koliko će dugo NVIDIA moći zadržati prednost dok drugi masovno ulažu u AI čipove bloomberg.com. Za sada, NVIDIA-ina agresivna razvojna strategija (Blackwell stiže samo 2 godine nakon Hoppera s ogromnim poboljšanjima) održala ju je ispred konkurencije.

Pogled u budućnost: Trendovi u hardverskoj akceleraciji umjetne inteligencije

S obzirom na to da Blackwell postavlja nove standarde, što slijedi za AI hardver? Nekoliko ključnih trendova nazire se na horizontu:

Daljnji razvoj multi-čip i chiplet arhitekture: Blackwellov dizajn s dvije jezgre vjerojatno je tek početak. Budući akceleratori mogli bi integrirati još više chipleta – na primjer, podjeljivanje funkcionalnosti na “compute tile” i “memory tile” ili kombiniranje GPU jezgri sa specijaliziranim AI jezgrama. AMD i Intel već istražuju 3D slaganje (npr. AMD-ov V-Cache na CPU-ima, potencijal za slaganje HBM ili SRAM na GPU-ima). NVIDIA bi mogla usvojiti 3D integraciju u budućim arhitekturama kako bi smjestila cache ili logiku iznad računskih jezgri za veću brzinu i efikasnost. Novi UCIe standard za povezivanje chipleta mogao bi omogućiti kombiniranje chipleta različitih proizvođača u jednom paketu (zamislite budući modul s NVIDIA-ovim GPU chipletom i AI akceleratorom ili prilagođenim IO chipletom treće strane zajedno). Uspjeh Blackwellovog MCM-a osigurava da je doba monolitnih divovskih jezgri završena – dizajn s chipletima bit će norma za vrhunske akceleratore kako bi se nastavilo povećavati performanse.
Specijalizacija za AI radna opterećenja: Kako AI radna opterećenja postaju sve raznovrsnija, mogli bismo vidjeti više specijaliziranih jedinica unutar akceleratora. Blackwell je već dodao Transformer Engine. Budući dizajni mogli bi uključivati namjenski hardver za algoritme preporuke (koji uključuju rijetke pristupe memoriji), graf neuronske mreže ili simulacije učenja potkrepljivanjem. Također postoji interes za analogno računalstvo za neuronske mreže (kao što to razvija Mythic) za drastično smanjenje potrošnje energije, iako će se to vjerojatno prvo pojaviti u nišnim proizvodima. Nadalje, možemo očekivati podršku za nove numeričke formate – Blackwellov FP4 možda bude praćen novim varijacijama (npr. block floating point, stohastičke metode zaokruživanja) radi postizanja još veće učinkovitosti. U suštini, koncept “tensor core” će se proširiti na širi spektar AI operacija.
Napredak u povezivanju – optika i dalje: NVLink 5 je električni, ali kako GPU klasteri idu prema eksaskalarnom računanju, bakrene veze mogu naići na ograničenja dometa i potrošnje energije. Industrija istražuje optičke veze za povezivanje na razini racka pa čak i čip-na-čip komunikaciju. NVIDIA-ova akvizicija mrežnih kompanija (Mellanox, Cumulus, itd.) i projekti kao što su Quantum InfiniBand preklopnici s in-network računanjem (SHARP) ukazuju na naglasak na mrežnoj tehnologiji. U narednim godinama mogli bismo vidjeti GPU-ove s optičkim I/O za izravno povezivanje preko vlakana između servera, ili fotoničke NVLink-ove sučelja koja pružaju veliku propusnost na većim udaljenostima. To bi omogućilo još veće disagregirane klastere (potencijalno tisuće akceleratora) koji se ponašaju kao jedan sustav, što je korisno za goleme modele i distribuirano izvođenje.
Energetska učinkovitost i održivost: Kako modeli i podatkovni centri rastu, potrošnja energije postaje glavni izazov. Blackwell GPU-ovi su visokopotrošni (vjerojatno 700W+ za B100 SXM modul) iako su učinkovitiji po računskoj jedinici od prethodnika, ukupna potrošnja AI infrastrukture raste. Budući hardver morat će znatno poboljšati performanse po vatu. Strategije uključuju prelazak na naprednije procesne čvorove (3nm, 2nm), korištenje novih vrsta tranzistora (Gate-all-around FET-ovi), dinamičko podešavanje napona/frekvencije prema AI opterećenju i bolje hlađenje (NVIDIA je već predstavila uronjeno i tekućinski hlađene konfiguracije za Blackwell HGX sustave nvidia.com). Mogli bismo vidjeti i arhitektonske pomake poput miješanja niske preciznosti i analognog računanja za dijelove mreža radi smanjenja potrošnje. AI akceleratori za edge i IoT također će se širiti – kod njih je prioritet niska potrošnja, a tehnologije tvrtki poput ARM, Qualcomma i Applea (neuronalni pogoni u pametnim telefonima itd.) proizaći će iz lekcija naučenih na najvišoj razini. I sama NVIDIA bi mogla predstaviti nasljednika Jetson linije sa Blackwell-derived arhitekturom optimiziranom za edge inferenciranje u robotici, kamerama i vozilima, donoseći dio mogućnosti podatkovnih centara u domene niske potrošnje.
Ravnoteža računalstva na rubu i u oblaku: Kako hardver postaje sposobniji, neki AI zadaci koji trenutačno zahtijevaju cloud backend mogli bi se prebaciti na sam uređaj. Na primjer, buduće AR/VR naočale ili kućni roboti mogli bi imati mini-Blackwell razine akceleratore za izvođenje napredne AI lokalno (radi latencije i privatnosti). To bi moglo dovesti do federiranog modela AI računalstva. Trend rubnog računalstva znači da je hardverska akceleracija potrebna ne samo za velike servere, već i u malim, lako implementiranim oblicima. Mogli bismo vidjeti utjecaj Blackwella u SoC dizajnima (kao što je DRIVE Thor za automobile, mogli bismo slične očekivati za dronove ili industrijske kontrolere). Izazov je donijeti visoke performanse u ograničenim energetskim/toplinskim okvirima – time se bave startupovi poput EdgeCortexa ili proizvođači čipova za mobitele. S vremenom će se razlika između “AI GPU-a” i općeg SoC-a zamutiti, kako praktički svi računalni uređaji budu uključivali AI akceleratorske mogućnosti.
Integracija AI i tradicionalnog HPC-a: Budućnost bi također mogla donijeti još dublju integraciju između CPU-a i GPU-a (ili AI akceleratora). NVIDIA-in Grace (CPU) + Blackwell (GPU) superchip je korak u tom smjeru. AMD-ovi APU-ovi su još jedan primjer. Intelova izvorna Falcon Shores vizija (x86 + Xe GPU) imala je sličnu namjeru. Kako standardi koherentnosti memorije napreduju (poput CXL-a za povezivanje memorije između akceleratora i CPU-a), mogli bismo vidjeti sustave gdje AI akceleratori dijele memoriju s CPU-ima, čime se smanjuje potreba za kopiranjem podataka. Ovo je važno za radne tokove koji kombiniraju simulaciju i AI (npr. korištenje AI modela unutar petlje simulacije fizike). Dugoročno bi se mogle pojaviti “XPU” arhitekture koje ujedinjuju različite vrste jezgri – skalarnu, vektorsku, matricnu – kako bi zadovoljile sve aspekte jedne aplikacije. Za sada, kombinacija Grace CPU-a s Blackwell GPU-ima preko NVLinka vodeći je primjer tog trenda, nudeći gotovo 1 TB/s koherentnosti što omogućuje glatko spajanje CPU i GPU zadataka nvidia.com. Budući čipovi mogli bi biti još više integrirani (možda čak i na istoj jezgri kada to bude izvedivo).

U suštini, budućnost AI hardvera uključivat će pomicanje granica performansi, ali i fokus na učinkovitosti i nove oblike uređaja. Konkurencija će potaknuti brzu inovaciju – NVIDIA neće mirovati, ali ni AMD, Intel, Google niti brojni startupi. Vjerojatno ćemo vidjeti raznolikost akceleratora optimiziranih za različite razmjere (cloud, edge) i svrhe (treniranje, inferenciranje, specijalizaciju). Međutim, s obzirom na trenutni zamah NVIDIA-e s Blackwellom, očekuje se da će oni određivati tempo, barem u kratkoročnom razdoblju. Jensen Huang često ističe „akcelerirano računalstvo” kao glavni smjer NVIDIA-e nvidianews.nvidia.com, što implicira da se GPU-ovi razvijaju tako da akceleriraju bilo koji računalni zadatak. Blackwell i njegovi nasljednici tako bi mogli postati sve općenitiji, preuzimajući opterećenja izvan neuronskih mreža – od obrade podataka do potencijalno AI-pokretanih upita u bazama podataka – zamagljujući granicu između AI čipova i općih procesora.

Utjecaj na tržište i posljedice

Uvođenje Blackwella ima dubok utjecaj na AI industriju i tržište:

Pružatelji cloud usluga: Hiperskalerti (AWS, Azure, Google Cloud, Oracle) utrkuju se u implementaciji Blackwell GPU-ova u svojim podatkovnim centrima jer je potražnja klijenata za AI računalstvom nezasitna. Svi su najavili dostupnost Blackwella u razdoblju 2024.–2025. nvidianews.nvidia.com. To će vjerojatno dodatno učvrstiti dominaciju NVIDIA-e u udjelu cloud GPU tržišta, čak i dok ti pružatelji razvijaju vlastite čipove. U bližem roku, cloud korisnici imat će koristi od snažnijih instanci – npr. korisnik AWS-a može unajmiti Blackwell instancu i ostvariti daleko brže treniranje ili posluživati više AI upita po dolaru nego prije. To bi moglo potencijalno smanjiti troškove cloud AI-a (ili barem povećati performanse po istoj cijeni), omogućujući startupima podvige koji su dosad bili dostupni samo dobro financiranim laboratorijima. S druge strane, cloud tvrtke će pažljivo pratiti troškove; Blackwell GPU-ovi izuzetno su skupi (deseci tisuća dolara po komadu), stoga će cloud cijene reflektirati njihovu premijum narav. Već je kapacitet cloud GPU-a bio ograničen zbog potražnje za H100 – s još većom popularnošću Blackwella (i ograničenom ranom dostupnošću) mogli bismo vidjeti nastavak nestašica ili problema s alokacijom tijekom 2025. Cloud pružatelji koji osiguraju velike količine Blackwella (poput Oraclea s ranim pristupom, ili AWS-a kroz zajednički razvoj nvidianews.nvidia.com) mogli bi privući više korisnika s naglaskom na AI.
Poduzeća i usvajanje AI-a: Za velika poduzeća, sustavi temeljeni na Blackwellu snižavaju prepreku za uvođenje naprednih AI rješenja. Industrije poput financija, telekomunikacija, maloprodaje i proizvodnje utrkuju se u ugradnji AI-a u svoje poslovanje i proizvode. S Blackwellovom učinkovitošću, poduzeće može dobiti potrebnu računalnu snagu s manje čvorova – primjerice, gdje je prije bilo potrebno 16 DGX servera, sada možda 4 Blackwell sustava dovoljna su za isto AI opterećenje. Time se smanjuje ne samo broj uređaja nego i potrošnja energije i prostor (važna stavka za tvrtke zabrinute za račune za energiju i ugljični otisak). Možemo očekivati val projekata modernizacije AI-a uvođenjem Blackwella: primjerice, banke koje nadograđuju platforme za procjenu rizika i detekciju prijevara Blackwell klasterima za izvođenje sofisticiranijih modela, ili automobilske tvrtke koje koriste Blackwell za ubrzavanje razvoja autonomne vožnje (kao što su to najavili brojni proizvođači prelaskom na Drive Thor). Poduzeća će također cijeniti mogućnosti poput povjerljivog računalstva na Blackwellu radi regulatornih zahtjeva – npr. zdravstvena tvrtka može držati podatke o pacijentima kriptiranima od početka do kraja i dalje koristiti snažan GPU za analizu nvidia.com.
AI startupi i istraživački laboratoriji: Za startupove usmjerene na AI (bilo izgradnju novih modela ili AI-pokrenutih usluga), performanse Blackwella mogu biti prevaga. Time se donekle izjednačava teren s velikim tech tvrtkama, jer startupovi mogu pristupiti istoj klasi hardvera preko clouda ili kolokacijskih ponuđača (više AI orijentiranih cloud tvrtki poput CoreWeave, Lambda, itd., nude Blackwell 2024. nvidianews.nvidia.com). To znači da dobro financirani startup može trenirati model najnovije generacije bez čekanja mjesecima ili žrtvovanja veličine modela. Kao rezultat mogli bismo vidjeti bržu inovaciju i više konkurencije u razvoju AI modela. Ipak, to može stvoriti i još veći jaz između onih koji mogu priuštiti vrhunski hardver i onih koji ne mogu. Trenutno su NVIDIA-ini vodeći GPU-ovi skupi i često prioritetno namijenjeni velikim kupcima – što je tijekom H100 generacije izazvalo pritužbe pojedinih istraživača. Ako Blackwell bude jednako tražen, neki manji laboratoriji će se i dalje teško domoći pristupa. To bi moglo potaknuti više korištenja zajedničkih superračunala (poput akademskih klastera s Blackwellom financiranih iz državnih programa) ili potaknuti uporabu alternativnih čipova (poput AMD-ovih, ako budu dostupni ranije ili povoljnije). No općenito, dostupnost Blackwella sredinom 2025. ubrzat će AI istraživanje i razvoj, vjerojatno dovesti do novih modela i mogućnosti koje još nismo vidjeli (jer je ograničenje u komputacijskoj moći dosad bio usko grlo).
Konkurentski krajolik: Gledano tržišno, lansiranje Blackwella učvršćuje poziciju NVIDIA-e kao lidera AI hardvera. Analitičari procjenjuju da NVIDIA drži oko 80-90% tržišta akceleratora, a Blackwellova prednost otežat će drugima ugrožavanje tog udjela reddit.com. Najbliži konkurent je AMD – njihova strategija obuhvaća pokušaj preuzimanja 15-20% tržišnog udjela u narednim godinama, što ovisi o uspjehu MI300 i pravovremenoj isporuci sljedeće generacije. Ako Blackwell pokaže jasnu nadmoć i bude usvojen posvuda, neki klijenti možda neće ni razmatrati alternative, čime bi zacementirali dominaciju NVIDIA-e (slično kao što je CUDA postala zadana platforma). Međutim, golemo AI tržište (bilijuni dolara potencijala) ostavlja mjesta za više igrača. Vidimo da i cloud pružatelji ulažu u vlastite čipove (Google TPU, AWS Trainium) – ako oni budu učinkoviti, mogli bi dugoročno ograničiti rast NVIDIA-e na tom segmentu. Također postoje i geopolitički faktori – kineske tehnološke kompanije ne mogu uvoziti NVIDIA-ine najjače GPU-ove zbog izvoznih ograničenja, što ih prisiljava na razvoj domaćih AI čipova (tvrtke poput Birena, Alibaba T-Heada i Huawei Ascenda). Ti čipovi zaostaju jednu-dvije generacije (obično su usporedivi s A100) research.aimultiple.com research.aimultiple.com, ali možda će se poboljšati i stvoriti paralelne ekosustave. NVIDIA odgovara ponudom nešto oslabljenih verzija (poput H800 za Kinu). Blackwell bi također mogao imati varijante ograničenog izvoza. Šira posljedica je moguća fragmentacija AI hardverskog tržišta po geografiji, iako će u bliskoj budućnosti NVIDIA ostati glavna odrednica za većinu svijeta.
Trošak i ekonomija AI-a: Performanse Blackwella mogle bi znatno smanjiti cijenu treniranja ili inferiranja po zadatku, kako se i oglašava. To bi moglo ubrzati uvođenje AI-a u sektore osjetljive na cijene. Na primjer, 25× učinkovitiji inference mogao bi omogućiti korištenje velikih jezičnih modela u potrošačkim aplikacijama čija je upotreba prije bila preskupa na H100. Moguće je zamisliti AI značajke u softveru (asistenti u uredskim paketima, copilot za kodiranje itd.) po nižoj cijeni i tako češće dostupne. Mogli bismo vidjeti i nove ponude “AI kao usluga” oslonjene na Blackwell, gdje tvrtke nude treniranje ili hosting modela klijentima koristeći Blackwell infrastrukturu (neki startupovi poput MosaicML – sada dio Databricksa – to su radili s prethodnim generacijama GPU-a; Blackwell će dodatno unaprijediti takve usluge). S druge strane, apsolutna cijena top GPU-ova znači da će ukupna AI potrošnja ostati visoka – tvrtke će trošiti slične iznose, ali ostvarivati puno više AI-a. Zapravo, sama valuacija NVIDIA-e (bilijuni dolara tržišne kapitalizacije) odražava očekivanje tržišta da će potražnja za tim akceleratorima nastaviti ubrzano rasti kako se AI širi na sve. Ako ništa, Blackwell učvršćuje trend gladi za AI komputacijom: povećanjem ponude komputacijskih resursa omogućuje se razvoj novih aplikacija, što pak stvara još veću potražnju.
Povratna petlja inovacija: Široka implementacija Blackwella može utjecati i na istraživačke smjerove. Istraživači realno mogu pokušati veće eksperimente ili zahtjevnije pristupe (poput velikih ansambala, treniranja s vrlo dugim sekvencama, itd.) koje ne bi mogli isprobati na ograničenom hardveru. To bi moglo donijeti proboje koji su samo čekali na dostupnost dovoljno resursa. Primjerice, razvijanje 3D AI modela u punoj vjernosti ili multimodalnih modela koji vide i čuju s dosad neviđenom složenošću. To je analogno tome kako je dostupnost HPC-a omogućila nove znanstvene pomake. U AI-u, dostupnost golemih resursa putem Blackwella može otvoriti vrata novim arhitekturama (možda nečemu izvan Transformera) koje prije jednostavno nisu bile izvedive.
Vremenski okvir za sljedeću generaciju: Konačno, utjecaj Blackwella ovisit će i o tome koliko dugo ostaje vodeći prije sljedećeg skoka. NVIDIA ima ciklus od otprilike 2 godine za glavne arhitekture. Ako se to nastavi, nasljednika (šifra najvjerojatnije na “C” ako nastave po abecednom redoslijedu znanstvenika – možda “Curie” ili slično) možemo očekivati 2026./27. Za sada, kroz 2025. i vjerojatno 2026., Blackwell će biti kralježnica većine vodećih AI instalacija. Njegovo uspješno usvajanje oblikovat će poteze konkurenata (npr. AMD bi mogao ubrzati sljedeće lansiranje ili Intel donijeti odluku o novoj strategiji).

Zaključno, NVIDIA Blackwell nije samo novi čip – to je katalizator koji ubrzava cijeli AI ekosustav. Omogućuje inženjerima i istraživačima da naprave više, obećava brže uvide i pametnije proizvode tvrtkama, te stavlja pritisak na konkurenciju da pojača igru. Od AI mega-podatkovnih centara do autonomnih strojeva na rubu, Blackwell i njegovi nasljednici pogonit će novi val AI inovacija, zaista nas vodeći “Blackwell i dalje” u budućnost akceleriranog računarstva.

Izvori: Informacije u ovom izvješću preuzete su iz službenih NVIDIA-inih najava i tehničkih sažetaka o Blackwell arhitekturi nvidia.com nvidianews.nvidia.com, analiza stručnjaka iz industrije i publikacija (IEEE Spectrum, HPCwire, Forbes) o usporednim rezultatima spectrum.ieee.org ai-stack.ai, te priopćenja partnera iz NVIDIA-e s naglaskom na primjene u oblaku, automobilskoj industriji i zdravstvu nvidianews.nvidia.com worldbusinessoutlook.com. Ovi izvori uključuju NVIDIA-ine najave s GTC 2024 nvidianews.nvidia.com, tehničke blogove cudocompute.com cudocompute.com, i neovisne procjene novonastale AI hardverske industrije research.aimultiple.com bloomberg.com. Zajedno, oni pružaju sveobuhvatan prikaz mogućnosti Blackwell čipova i njegovog konteksta u evoluirajućem AI hardverskom krajoliku.