Блеквел и даље: Будућност хардверске акцелерације вештачке интелигенције

NVIDIA Blackwell je najnovija arhitektura GPU-a ove kompanije, naslednik Hopper (H100) iz 2022. i Ampere (A100) iz 2020. godine nvidianews.nvidia.com cudocompute.com. Ime je dobila po matematičaru Davidu Blekvelu (David Blackwell), što odražava tradiciju NVIDIA-e da odaje počast pionirima računarstva cudocompute.com. Blackwell GPU-ovi predstavljaju veliki iskorak u performansama i mogućnostima, osmišljenim da odgovore na rastuće zahteve veštačke inteligencije (AI) u velikim razmerama. CEO NVIDIA-e, Jensen Huang, nazvao je Blackwell „motorom za novu industrijsku revoluciju” AI-a nvidianews.nvidia.com. U ovom izveštaju pružamo sveobuhvatan pregled Blackwell tehnologije, inovacija u odnosu na prethodne generacije i značaja za trening i inferencu veštačke inteligencije u velikim razmerama. Takođe analiziramo primene u različitim industrijama – od velikih jezičkih modela, preko robotike do zdravstva – i upoređujemo Blackwell sa konkurentskim AI akceleratorima iz AMD-a, Intela, Google-a i vodećih startapa. Na kraju, razmatramo buduće trendove u hardverskoj akceleraciji AI-a i tržišni uticaj ove nove generacije AI čipova.

Tehnički pregled Blackwell arhitekture

Blackwell GPU-ovi su izrađeni u TSMC-ovom 4N+ procesu, s neverovatnih 208 milijardi tranzistora u jednom paketu nvidia.com. Ovo je gotovo 2,5× više tranzistora od prethodnog NVIDIA Hopper H100 (~80 milijardi) i čini Blackwell najkompleksnijim čipom na svetu do sada cudocompute.com nvidianews.nvidia.com. Da bi to ostvarila, NVIDIA koristi arhitekturu sa više čipova: dva GPU čipa na granici retikule postavljena su na jedan modul i povezana brzim međupovezom čip-na-čip pri brzini od 10 terabajta u sekundi nvidia.com cudocompute.com. Efektivno, ova dva čipa funkcionišu kao ujedinjen GPU, omogućujući Blackwell-u ogromnu skalabilnost kada je reč o broju jezgara i memoriji na paketu, a da se i dalje uklapa u proizvodna ograničenja. Svaki Blackwell GPU čip ima četiri steka sledeće generacije HBM3e memorije visokog protoka (ukupno 8 stekova po GPU modulu), sa do 192 GB HBM memorije na vrhunskim modelima cudocompute.com. Ukupni memorijski protok dostiže ogromnih ~8 TB/s po GPU-u (dva čipa zajedno), što je 5× više od Hopper memorijskog protoka cudocompute.com. Ovoliki kapacitet i brzina memorije omogućavaju Blackwell-u da podrži AI modele čak do ~740 milijardi parametara u memoriji – što je otprilike 6× više od Hopper-a cudocompute.com.

Pored same veličine, Blackwell donosi šest transformativnih tehnologija u svojoj arhitekturi nvidianews.nvidia.com nvidianews.nvidia.com:

Sledeća generacija GPU superčipa: Kao što je već navedeno, Blackwell je prvi NVIDIA GPU napravljen kao dvočipni „superchip“. Ovim dizajnom postiže se neviđen nivo paralelizma i gustoće izračunavanja u jednom akceleratoru. Jedan Blackwell GPU isporučuje 5× AI performanse H100 (pet puta više od Hopper-a) zahvaljujući većoj skalabilnosti i novim jezgrima cudocompute.com cudocompute.com. Podržava memoriju na paketu koja daleko prevazilazi prethodne generacije (skoro 200 GB po GPU-u), što je ključno za današnje ogromne modele.
Druga generacija Transformer Engine-a: Blackwell sadrži unapređeni Transformer Engine (TE) za ubrzanje AI računanja, posebno za modele bazirane na Transformer arhitekturi poput velikih jezičkih modela (LLM). Novi TE uvodi podršku za 4-bitne plutajuće brojeve (FP4) i fino podešene tehnike „mikro-tenzorskog skaliranja“ kako bi očuvao tačnost pri ovim ultra-niskim preciznostima nvidia.com nvidianews.nvidia.com. U praksi to znači da Blackwell može udvostručiti efektivni protok i veličinu modela za AI inferencu koristeći 4-bitne težine i aktivacije gde je to moguće (sa minimalnim gubitkom tačnosti). Blackwell Tensor Cores daju oko 1,5× više AI FLOPS-a nego ranije i sadrže specijalizovani hardver za 2× brže obrađivanje Transformer attention slojeva, što su usko grlo kod LLM-ova nvidia.com. U kombinaciji sa NVIDIA softverom (TensorRT-LLM kompajler i NeMo biblioteke), to donosi do 25× nižu latenciju i potrošnju energije za LLM inferencu u odnosu na Hopper nvidianews.nvidia.com nvidianews.nvidia.com. Blackwell može da radi inference modela sa trilion parametara u realnom vremenu – što je ranije bilo nedostupno prethodnim GPU-ovima nvidianews.nvidia.com.
Peta generacija NVLink međupoveza: Da bi omogućio skaliranje izvan jednog gigantskog GPU-a, Blackwell uvodi NVLink 5, najnoviju NVIDIA-inu brzu sabirnicu za povezivanje više GPU-ova. NVLink 5 isporučuje 1,8 TB/s dvosmernog protoka po GPU-u, što je ogroman iskorak koji omogućava povezivanje do 576 GPU-ova u jednom klasteru sa brzim, sve-prema-svima komunikacijom nvidia.com nvidianews.nvidia.com. Za poređenje, Hopperova NVLink konekcija je dozvoljavala oko 18 GPU-ova po serveru; novi NVLink Switch čipovi u Blackwell-u omogućavaju kreiranje NVL72 domena od 72 GPU-a, koji rade kao jedan džinovski akcelerator nvidia.com nvidia.com. NVLink Switch omogućava ukupnu propusnost od 130 TB/s u kanalu od 72 GPU-a nvidia.com. Ovo je ključno za treniranje AI modela sa više triliona parametara, gde su potrebne desetine ili stotine GPU-ova koji rade zajedno bez uskih grla u komunikaciji. Novi NVLink takođe podržava NVIDIA-in SHARP protokol za prebacivanje i ubrzanje kolektivnih operacija (kao što je all-reduce) u hardveru sa FP8 preciznošću, što dodatno podiže efikasnost multi-GPU sistema nvidia.com cudocompute.com.
RAS engine (pouzdanost, dostupnost, servisabilnost): S obzirom na to da Blackwell sistemi mogu neprekidno raditi masivne AI zadatke nedeljama ili mesecima, NVIDIA je implementirala hardverska rešenja za pouzdanost. Svaki GPU uključuje poseban RAS engine koji nadgleda hiljade podataka u cilju ranog otkrivanja grešaka ili degradacije performansi nvidia.com nvidia.com. Ovaj engine koristi analitiku zasnovanu na veštačkoj inteligenciji za predviđanje potencijalnih problema i može proaktivno signalizirati komponente na servis, minimizirajući neočekivane zastoje. Pruža detaljne dijagnostičke informacije i pomaže koordinaciju održavanja – što je neophodno kada se infrastruktura AI-a širi na „AI fabrike“ sa desetinama hiljada GPU-ova u data centrima nvidia.com nvidia.com.
Sigurno AI procesiranje: Blackwell je prvi GPU sa ugrađenim mogućnostima Poverljivog računarstva. Implementira pouzdano okruženje za izvršavanje sa enkripcijom i izolacijom memorije (TEE-I/O), tako da se osetljivi podaci i modeli mogu obrađivati u GPU memoriji bez rizika od izlaganja nvidia.com. Ono što je značajno, Blackwell enkripcija ima zanemarljiv uticaj na performanse, isporučujući skoro isti protok kao i u normalnom režimu nvidia.com. Ovo je posebno važno za industrije sa visokim zahtevima privatnosti, poput zdravstva i finansija, koje sada mogu obavljati AI zadatke na deljenoj infrastrukturi, a da pri tome očuvaju poverljivost podataka nvidianews.nvidia.com. Od sigurne analize medicinskih snimaka do zajedničkog treniranja na privatnim skupovima podataka, Blackwell proširuje upotrebu AI-a uklanjanjem sigurnosnih barijera.
Dekompresija i ubrzanje podataka: Da bi ishranjivao svoje moćne procesorske jedinice, Blackwell dodaje engine za dekompresiju koji prebacuje zadatke dekompresije podataka na GPU hardver nvidia.com nvidia.com. Savremeni analitički sistemi često kompresuju podatke (npr. LZ4, Snappy) radi uštede prostora i I/O – Blackwell ih može transparentno dekompresovati u radu „u liniji“, izbegavajući CPU uska grla. Takođe, u kombinaciji sa NVIDIA Grace CPU procesorom, Blackwell može direktno pristupati sistemskoj memoriji pri 900 GB/s preko NVLink-C2C, omogućavajući brz prenos ogromnih skupova podataka nvidia.com nvidia.com. Zajedno, ove funkcije ubrzavaju radnje gde je potrebno obraditi mnogo podataka, kao što su ETL, SQL analitika i preporučivački sistemi. NVIDIA očekuje da će narednih godina sve veći deo desetina milijardi dolara potrošenih na obradu podataka preći na pristupe ubrzane GPU-om nvidianews.nvidia.com.

Performanse – benchmarking: Zahvaljujući navedenim inovacijama, Blackwell donosi generacijski iskorak u performansama. Pri istoj preciznosti, jedan vrhunski Blackwell GPU (B100 model) nudi približno 5× viši AI propusni kapacitet pri treningu od H100 (Hopper) i oko 25× propusnosti starijeg Ampere A100 cudocompute.com nvidianews.nvidia.com. Na primer, Blackwell može ostvariti do 20 PetaFLOPS AI računanja na FP8/FP6 preciznosti, u poređenju sa ~8 PFLOPS za H100 cudocompute.com. Još impresivnije, sa FP4 dostiže 40 PFLOPS, pet puta više od Hopper-ovih FP8 mogućnosti cudocompute.com. U praksi, to znači da zadaci poput GPT-3 (175B parametara) inferencije, koji su na H100 trajali sekunde, mogu se pokrenuti u deliću sekunde na Blackwell-u. NVIDIA je otkrila da Blackwell omogućava real-time inferencu modela do 10× većih nego što je ranije bilo moguće nvidianews.nvidia.com. Rani industrijski benchmark testovi to potvrđuju – u MLPerf testovima inferencije, sistemi sa novim Blackwell GPU-ovima nadmašili su sve rivale, dok su čak i najnoviji AMD MI300 serijski akceleratori dostigli performanse prethodne generacije Nvidia H100/H200 samo na manjim LLM modelima spectrum.ieee.org. U jednom Llama-70B testu, submissioni bazirani na Blackwell-u ostvarili su 30× veći protok nego isti broj H100 GPU-ova, uz drastično nižu potrošnju energije nvidianews.nvidia.com.

Vredno je napomenuti da postizanje ovih poboljšanja u praksi zavisi od optimizacije softvera. NVIDIA-in pristup celokupnom ekosistemu – od CUDA biblioteka do novog TensorRT-LLM kompajlera – omogućava aplikacijama da lako iskoriste karakteristike Blackwell arhitekture. Na primer, automatska skaliranja preciznosti u Transformer Engine-u omogućavaju korisnicima da dobiju ubrzanja uz pomoć FP4 sa minimalnim promenama koda nvidia.com. Ova čvrsta integracija hardvera i softvera je ključna prednost za NVIDIA-u. Nasuprot tome, konkurenti se često suočavaju sa problemima sazrevanja softvera; industrijski analitičari ističu da dok AMD-ov MI300 hardver “sustiže” Nvidiu, njegov softverski ekosistem i dalje zaostaje za CUDA-om po jednostavnosti upotrebe i optimizaciji research.aimultiple.com research.aimultiple.com.

Inovacije u poređenju sa Hopper i Ampere

Blackwell donosi nekoliko velikih arhitektonskih unapređenja u odnosu na prethodne generacije NVIDIA GPU-a:

Multi-Chip Module (MCM) dizajn: Hopper (H100) i Ampere (A100) su bili monolitni GPU-ovi na jednom čipu. Blackwell predstavlja prvi NVIDIA-in izlazak u svet MCM GPU-ova – efektivno dva GPU-a u jednom. Ovo daje drastično veći broj tranzistora (208B naspram 80B) i memorijski kapacitet (do 192 GB naspram 80 GB) cudocompute.com cudocompute.com. Konkurenti poput AMD-a su pioniri MCM GPU-ova u seriji MI200/MI300, ali NVIDIA-ina implementacija ujedinjuje dva čipa u jedan GPU adresni prostor cudocompute.com, što programerima olakšava korišćenje. MCM pristup takođe poboljšava proizvodni prinos (manji čipovi lakše se proizvode) i skalabilnost budućih dizajna.
Poboljšani Tensor Cores i FP4 preciznost: Dok je Ampere uveo Tensor Core-ove, a Hopper dodao FP8 podršku preko prve generacije Transformer Engine-a, Blackwell podiže lestvicu sa nativnom podrškom za 4-bitnu preciznost nvidia.com. Dodaje „Ultra“ Tensor Core-ove koji obrađuju FP4 matrične operacije i nove mikroskale algoritme za održavanje tačnosti na 4 bita nvidia.com. Ovo je značajno jer mnogi AI inference zadaci mogu tolerisati nižu preciznost, tako da FP4 praktično može udvostručiti propusnost u odnosu na FP8. Blackwell-ovi Tensor Core-ovi su takođe bolje optimizovani za sparsity i obrasce pažnje karakteristične za Transformere, dok su Ampere/Hopper imali više opštu namenu. Rezultat je veliki skok performansi na Transformer modelima (2× brža pažnja u Blackwell-u) nvidia.com.
Memorija i međupovezivanje: Blackwell koristi HBM3e memoriju sa većim kapacitetom i propusnošću. Hopper-ov H100 je imao 80 GB HBM (3 TB/s); Blackwell B100 nudi do ~192 GB HBM pri ~8 TB/s cudocompute.com. Uz to, Blackwell-ov NVLink 5 značajno unapređuje skaliranje više GPU-ova, kako je već opisano. Hopper je mogao da poveže direktno najviše 8 GPU-ova u nodu (sa ~0.6 TB/s po GPU); Blackwell može da poveže 72 ili više na mnogo većoj propusnosti nvidia.com nvidianews.nvidia.com. Ovo odgovara zahtevima skaliranja današnjeg distribuiranog treniranja na desetinama GPU-ova, smanjujući komunikacijske troškove.
Poverljivo računanje i RAS: Prethodne arhitekture su imale samo ograničenu bezbednost (npr. Hopper je uveo izolaciju VM sa enkripcijom za multi-instance GPU particije). Blackwell je prvi sa potpunim poverenim GPU izračunavanjem, šifrujući podatke u radu nvidia.com. Takođe je prvi NVIDIA GPU sa posvećenim RAS jezgrom za prediktivno održavanje nvidia.com. Ove funkcije ukazuju na sazrevanje GPU tehnologije za kritične poslovne i cloud primene, gde su vreme bez prekida i privatnost podataka jednako važni kao i sirova brzina. Ampere i Hopper nisu imali ovako robusnu ugrađenu telemetriju i enkripciju za AI zadatke.
Novi motori za obradu podataka: Blackwell-ov hardver za dekompresiju je nova funkcionalnost – prethodni GPU-ovi su prepuštali učitavanje podataka CPU-ovima ili DPU-ovima. Ubrzavanjem zadataka poput JSON parsiranja ili dekodiranja komprimovanih podataka na samom GPU-u, Blackwell može ubrzati podatkovne tokove od početka do kraja, a ne samo neuronske mrežne proračune nvidia.com. Ovo pokazuje proširenje uloge GPU-a: od čistog ML akceleratora do univerzalnog alata za obradu podataka za analitiku i ETL. To odražava industrijske trendove u kojima se AI i big data analitika susreću.

Ukratko, Blackwell-ova poboljšanja u odnosu na Hopper/Ampere vide se u pet ključnih dimenzija: (1) Računanje (više TFLOPS-a zahvaljujući većoj skali i FP4-u), (2) Memorija (veći kapacitet/propusnost), (3) Povezivost (NVLink klasteri), (4) Otpornost/Bezbednost (RAS engine, enkripcija), i (5) Rukovanje podacima (motori za kompresiju). Ova poboljšanja čine Blackwell daleko sposobnijim da se izbori sa velikim AI zadacima u odnosu na svoje prethodnike.

Odgovor na zahteve obimnog treniranja & inferenciranja AI-a

Današnji napredni AI modeli – bilo višemilionski jezički modeli, složeni vision transformer-i, ili preporučivački sistemi koji procesuiraju petabajte podataka – zahtevaju ogromne resurse za računanje i memoriju. Blackwell je specifično dizajniran da odgovori na te izazove:

Neviđen razmer modela: Kao što je pomenuto, jedan Blackwell GPU može da smesti modele reda 0.5–0.7 biliona parametara u memoriju cudocompute.com. A ako ni to nije dovoljno, sistemi bazirani na Blackwell-u mogu da se šire na stotine GPU-ova uz brza povezivanja, omogućavajući treniranje modela sa desetinama milijardi parametara raspodelom parametara po GPU-ovima nvidianews.nvidia.com nvidia.com. Na primer, NVIDIA-in DGX SuperPOD sa Blackwell-om može povezati 576 GPU-ova, nudeći ~1.4 ExaFLOPS AI performansi i 30 TB objedinjene HBM memorije nvidianews.nvidia.com nvidianews.nvidia.com. Ta mogućnost omogućava istraživanje modela poput GPT-4 i novijih, čija veličina može biti u domenu više biliona parametara. Ukratko, Blackwell rešava problem razmere sirovom snagom – veći čipovi i više njih, savršeno povezanih.
Veća propusnost, niža latencija: Za AI inference, posebno za interaktivne aplikacije (chatbotovi, real-time vizija, itd.), latencija i trošak su ključni. Blackwell-ove optimizacije za transformere i FP4 preciznost direktno ciljaju na efikasnost inferencije, donoseći do 25× nižu latenciju i potrošnju energije po upitu za LLM-ove u odnosu na prethodnu generaciju nvidianews.nvidia.com. U praksi, ovo može značiti da je za upit modelu od 1 bilion parametara, koji je ranije zahtevao veliki klaster GPU-ova, sada dovoljan manji Blackwell klaster, brže i jeftinije. Kompanije kao što su OpenAI i Meta planiraju ulagati u Blackwell za masovno serviranje LLM-ova korisnicima, gde je svako smanjenje troška po inferenciji od velikog značaja nvidianews.nvidia.com nvidianews.nvidia.com.
Efikasnost treniranja i trošak: Treniranje savremenih modela može koštati desetine miliona dolara u računskoj snazi. Blackwell ima za cilj da to smanji bržim treniranjem i boljim iskorišćenjem čvorova. Kombinacija većeg broja FLOPS-a i bolje mrežne povezanosti znači da određeni klaster Blackwell GPU-ova može za isto vreme istrenirati model brže (ili postići veću tačnost u istom roku). NVIDIA tvrdi da treniranje velikih LLM modela na Blackwell-u može biti do 25× energetski efikasnije nego na Hopper-u nvidianews.nvidia.com. Ovo nije samo rezultat poboljšanja čipova, već i softverskog napretka (npr. kompajleri kompatibilni sa Blackwell-om i šeme mešane preciznosti). Brži ciklusi treniranja omogućavaju istraživačima brže iteracije modela – što ubrzava razvoj AI-a.
Kapacitet memorije za veće batch-eve i skupove podataka: Blackwell-ova proširena memorija je od velike koristi za trening i inferenciju. Prilikom treniranja, može da obradi veće batch-eve ili sekvence, poboljšavajući efikasnost i kvalitet modela. Za inferenciju, može da kešira cele modele ili duge kontekste (važno za LLM-ove kojima trebaju dugi upiti) na jednom GPU-u, izbegavajući sporo prebacivanje iz CPU memorije. Takođe, sa Grace CPU povezivanjem (900 GB/s), Blackwell GPU može da prosledi dodatne podatke ka CPU memoriji bez veće kazne nvidia.com. Ovo praktično stvara memorijsku hijerarhiju gde GPU+CPU dele koherentnu memoriju – korisno za ogromne skupove preporuka ili analitiku grafova gde aktivni podaci nadilaze memoriju GPU-a.
Stalna pouzdanost: U poslovnim i cloud okruženjima, AI zadaci često rade kao servisi neprekidno. Blackwell-ove funkcije pouzdanosti (RAS engine) omogućavaju da ovakvi zadaci traju uz minimalne prekide, automatski detektujući probleme poput grešaka memorije, neuspeha veza ili temperaturnih anomalija i obaveštavajući operatere nvidia.com nvidia.com. Ovo zadovoljava praktične zahteve: kako firme AI uvode u produkciju (npr. personalizovane preporuke uživo ili autonoma robote u fabrikama), potrebna im je oprema pouzdana kao i tradicionalna IT infrastruktura. Blackwell se približava tom cilju integracijom pouzdane tehnologije viđene u kritičnim CPU-ovima i serverima.

Ukratko, Blackwell je prvenstveno namenjen potrebama “AI fabrika” – infrastrukture velikih razmera za AI koja pokreće sve, od istraživačkih laboratorija do cloud AI servisa nvidianews.nvidia.com. Ona donosi razmeru, brzinu, efikasnost i otpornost potrebnu kako AI modeli i skupovi podataka nastavljaju svoj eksponencijalni rast.

Upotreba i primene u različitim industrijama

NVIDIA Blackwell nije samo o obaranju rekorda – ona je dizajnirana da otključa nove primene veštačke inteligencije u raznim oblastima. Ovde ćemo pogledati kako Blackwell GPU-ovi mogu da utiču na nekoliko ključnih domena:

Generativna veštačka inteligencija i veliki jezički modeli (LLM-ovi)

Uspon generativne veštačke inteligencije (GPT-3, GPT-4 i dr.) je jedan od glavnih pokretača razvoja Blackwell-a. Blackwell GPU-ovi briljiraju kako u treniranju tako i u implementaciji velikih jezičkih modela:

Treniranje džinovskih modela: Istraživački laboratorije i kompanije kao što su OpenAI, Google DeepMind i Meta treniraju sve veće LLM-ove. Blackwell omogućava treniranja koja su ranije bila nepraktična. Sa svojom multiplom skalabilnošću GPU-ova i bržim protokom, moguće je trenirati modele sa bilionima parametara ili obučiti modele sa preko 100 milijardi parametara za značajno kraće vreme. Naime, direktor Mete je naveo da se „raduje korišćenju NVIDIA Blackwell-a za treniranje njihovih open-source Llama modela i izgradnju nove generacije Meta AI-a” nvidianews.nvidia.com. Brži ciklus iteracija znači više eksperimenata i potencijalna otkrića u mogućnostima modela. Dodatno, Blackwell-ov Transformer Engine je posebno podešen za transformer-mreže, što može dovesti do bolje iskorišćenosti hardvera i niže cene za postizanje željene tačnosti.
Skaliranje LLM inferencijskih servisa: Implementacija servisa zasnovanih na LLM-ovima (poput četbota koji opslužuje milione korisnika) je izuzetno skupa u računarskim resursima. Blackwell značajno smanjuje potrebnu hardversku osnovu za isti nivo usluge. Jensen Huang je izjavio da Blackwell „omogućava organizacijama da pokreću generativnu veštačku inteligenciju u realnom vremenu na modelima sa trilion parametara, uz do 25× niže troškove” nego ranije nvidianews.nvidia.com. Za cloud provajdere to znači da mogu ekonomski da ponude GPT-slične usluge svojim korisnicima. Takođe se otvara mogućnost aplikacija u realnom vremenu – na primer, asistenata koji mogu da pretražuju ogromnu dokumentaciju ili odgovaraju na vrlo složena pitanja odmah, zahvaljujući niskoj latenciji Blackwell-a. Direktor Google-a, Sundar Pichai, istakao je planove za korišćenje Blackwell GPU-ova u Google Cloud-u i Google DeepMind-u kako bi „ubrzali buduća otkrića” i svoje AI proizvode učinili efikasnijim nvidianews.nvidia.com.
Mixture-of-Experts (MoE) modeli: Blackwell-ova arhitektura (ogromna memorija + brz međusobni spoj) je takođe od značaja za MoE modele, koji dinamički šalju ulaze različitim ekspertskim podmodelima. Ovi modeli mogu da se skaliraju na trilione parametara, ali zahtevaju brzu komunikaciju između eksperata (često raspoređenih preko više GPU-ova). NVLink Switch i velika GPU memorija omogućavaju efikasan rad MoE modela, potencijalno omogućavajući novu generaciju „retkih“ (sparse) ekspertskih modela koji su na prethodnom hardveru bili ograničeni propusnim opsegom nvidia.com cudocompute.com.

Robotika i autonomna vozila

Hardver za veštačku inteligenciju postaje ključan za robotiku – kako za treniranje robota u simulaciji, tako i za pogon AI „mozga“ u robotima/vozilima:

Istraživanje i simulacija u robotici: Treniranje upravljačkih politika za robote (npr. za dronove, industrijske robote) često koristi masivne simulacione okoline i učenje ojačanjem, što iziskuje velike GPU resurse. Blackwell može ubrzati fizičke simulacije (Omniverse, Isaac Sim, itd.) kao i treniranje kontrolnih mreža. NVIDIA je izvestila da su Grace+Blackwell sistemi postigli do 22× brže simulacije dinamike u poređenju sa CPU sistemima cudocompute.com. Ovo znači brži razvoj strategija kretanja robota, bolje digitalne blizance za fabrike i povoljnije treniranje za kompleksne zadatke robotike. Istraživači mogu izvoditi detaljnije simulacije (veća rezolucija ili više agenata) na jednom Blackwell čvoru nego ranije, što vodi do bolje obučenih robota.
Autonomna vozila (AV) – DRIVE Thor platforma: NVIDIA-ino automobilsko AI računarsko rešenje, DRIVE Thor, biće bazirano na Blackwell GPU arhitekturi nvidianews.nvidia.com. Ova platforma je namenjena za sledeću generaciju autonomnih automobila, robotaksija i kamiona. Prednosti Blackwell-a u transformerima i AI inferenciji uklapaju se sa novim trendovima u softveru za autonomna vozila – recimo, korišćenje transformer modela za percepciju okoline ili velikih jezičkih modela za asistenate u kabini. DRIVE Thor sa Blackwell GPU-om može doneti do 20× bolje performanse od postojećeg Orin sistema (koji je bio baziran na Ampere-u), konsolidujući obradu slike, radara, lidara i čak AI zabavu u kabini na jednom računaru medium.com. Vodeći proizvođači automobila i AV kompanije (BYD, XPENG, Volvo, Nuro, Waabi i drugi) već su najavili da će koristiti DRIVE Thor za modele koji izlaze od 2025. godine nvidianews.nvidia.com nvidianews.nvidia.com. Ovo omogućava autonomiju nivoa 4, napredniju asistenciju pri vožnji i čak generativne AI funkcije u automobilu (za glasovne asistente ili zabavu putnika). U suštini, Blackwell u automobilu obezbeđuje AI snagu za analizu bezbroj ulaznih podataka senzora u realnom vremenu i donošenje sigurnosno relevantnih odluka tokom vožnje.
Roboti za industriju i zdravstvo: Blackwell se koristi i u specijalizovanim robotima za zdravstvo i industriju. Na primer, na GTC 2025 u Tajvanu, developeri su prikazali medicinske robote sa veštačkom inteligencijom koji koriste Blackwell GPU-ove za AI obradu worldbusinessoutlook.com. Među njima su autonomni mobilni roboti za bolnice i humanoidni asistenti koji mogu da komuniciraju sa pacijentima. Svaki robot koristi Blackwell GPU zajedno sa velikim jezičkim modelom (u ovom slučaju “Llama 4”) i NVIDIA Riva govorom-za-AI za prirodnu interakciju sa ljudima worldbusinessoutlook.com. Blackwell GPU daje snagu na samom robotu za razumevanje govora, pokretanje LLM-a za rezonovanje i upravljanje robotovim akcijama u realnom vremenu. Bolnički testovi su pokazali bolje usluživanje pacijenata i smanjenje opterećenja osoblja zahvaljujući ovim AI robotima worldbusinessoutlook.com worldbusinessoutlook.com. U proizvodnji, može se zamisliti robotske sisteme sa Blackwell-om koji sprovode naprednu vizuelnu inspekciju ili koordiniraju flote robotskih vozila u skladištima koristeći AI algoritme za planiranje. Dodatne performanse omogućavaju implementaciju složenijih AI modela na robotima, čineći ih pametnijim i autonomnijim.

AI servisi u data centrima i cloud provajderi

Po svojoj prirodi, Blackwell je najviše kod kuće u data centru, gde pokreće javne cloud servise i privatnu AI infrastrukturu preduzeća:

AI instance u cloudu: Svi glavni cloud provajderi – Amazon AWS, Google Cloud, Microsoft Azure i Oracle – najavili su Blackwell-based GPU instance nvidianews.nvidia.com. To znači da startapi i kompanije mogu iznajmiti Blackwell akceleratore na zahtev za treniranje modela ili pokretanje AI aplikacija. Čak su i sami cloud provajderi ušli u partnerstvo sa NVIDIA na specijalnim sistemima; AWS je otkrio zajednički inženjerski projekat “Project Ceiba” radi integracije Grace-Blackwell superčipova sa AWS mrežom za potrebe NVIDIA istraživanja i razvoja nvidianews.nvidia.com. Sa Blackwell-om u cloudu, i male AI kompanije i istraživačke grupe dobijaju pristup vrhunskom hardveru koji su ranije imali samo giganti – makar delimično demokratizujući mogućnost treniranja ogromnih modela ili AI servisa u velikom obimu.
„AI fabrike” za preduzeća: Mnoge organizacije sada grade interne data centre za veštačku inteligenciju (NVIDIA ih zove AI fabrike) radi razvoja i implementacije AI modela za svoje poslovanje. Pokretanje Blackwell-a je praćeno i referentnim dizajnima kao što su NVIDIA MGX serveri i DGX SuperPOD, što omogućava lakše postavljanje Blackwell klastera nvidianews.nvidia.com. Na primer, Dell, HPE, Lenovo i Supermicro svi izbacuju servere sa Blackwell HGX pločama (8× B200 GPU-ova po ploči) nvidianews.nvidia.com nvidianews.nvidia.com. Takav klaster preduzeće može koristiti za interne analize, ali i za AI funkcionalnosti prema korisnicima. Energetska efikasnost je takođe ključna: Blackwell-ova unapređenja znače niži trošak po treningu i po inferenciji, što čini primenu veštačke inteligencije ekonomski izvodljivijom u velikom broju situacija. Jensen Huang tvrdi da s Blackwell-om industrija „prelazi na GPU-akcelerirane AI fabrike” kao novi standard IT infrastrukture research.aimultiple.com research.aimultiple.com. Ovo se već vidi u partnerstvima poput NVIDIA-e i farmaceutske kompanije Lilly za AI u otkrivanju lekova „on-premise”, i sa IT firmama poput Foxconn-a za pametnu proizvodnju – sve na Blackwell platformi research.aimultiple.com.
Analitika, HPC i nauka: Nisu tu samo neuronske mreže – Blackwell se koristi i za ubrzanje tradicionalnog izuzetno moćnog računanja (HPC) i analitike podataka. Saopštenje izdvaja primene kao što su inženjerske simulacije, EDA (razvoj čipova) pa čak i kvantna istraživanja korisna uz Blackwell nvidianews.nvidia.com. Softverski proizvođači poput Ansysa, Cadence-a i Synopsys-a (ključnih u simulaciji i elektronskom dizajnu) prilagođavaju svoje alate Blackwell GPU-ovima nvidianews.nvidia.com. Na primer, strukturalne simulacije koje su trajale satima na CPU klasterima mogu biti znatno brže na GPU-ovima zahvaljujući Blackwell-ovoj snazi. U zdravstvu, „računarski podržan dizajn lekova” koristi Blackwell GPU-ove za brže pretraživanje molekula ili simulaciju interakcije proteina nvidianews.nvidia.com. Glavni medicinski centri i istraživačke laboratorije takođe koriste akceleriranu genomiku i medicinsko snimanje; Blackwell omogućava još veće baze podataka (korisno za genetiku) i sigurniju obradu (važnu za privatnost pacijenata) nvidianews.nvidia.com. Ukratko, Blackwell u data centru je univerzalni akcelerator – ne samo za AI modele već i za sve što koristi paralelizam: od big data do naučnih istraživanja.

Zdravstvo i nauke o životu

Sektor zdravstva može značajno da profitira od AI rešenja zasnovanih na Blackwell-u, zahvaljujući potrebi za obradom velikih i osetljivih skupova podataka:

Medicinska dijagnostika i snimanje: Neuronske mreže se koriste za otkrivanje bolesti na snimcima kao što su MRI, CT i rendgen. Ovi modeli (npr. detekcija tumora) često zahtevaju veoma visoku rezoluciju i velike 3D zapremine. Blackwell-ova memorija i računarska snaga omogućavaju analizu snimaka celog tela ili slajdova visoke rezolucije odjednom, što je sa manjim GPU-ovima bilo teško. Pored toga, osobina poverljivog računarstva omogućava bolnicama da pokreću ove analize na deljenim cloud serverima bez rizika od curenja podataka pacijenata nvidia.com nvidianews.nvidia.com. Ovo može ubrzati implementaciju AI dijagnostičkih alata, čak i u bolnicama koje dele cloud instance, jer svaka može zadržati podatke enkriptovane.
Genomika i otkrivanje lekova: Podaci o sekvenciranju genoma i molekularnim simulacijama proizvode ogromne skupove podataka. Blackwell-ova mogućnost dekompresije i sinergija sa Grace CPU memorijom mogu ubrzati genomiku (npr. komprimovanje podataka u CPU memoriji i njihovo strimovanje ka GPU radi poravnanja ili otkrivanja varijanti). NVIDIA je istakla da baze podataka i Spark-analitika dobijaju veliki podsticaj – na primer, Blackwell sa Grace CPU beležio je 18× brže procesiranje baza podataka u poređenju sa sistemima samo sa CPU-om cudocompute.com cudocompute.com. Za farmaceutske kompanije koje rade virtuelno testiranje milijardi jedinjenja, Blackwell može dramatično skratiti vreme za pretragu kandidata, praktično služeći kao superračunar za otkrivanje lekova u kutiji.
AI u kliničkim tokovima rada: Ranije pomenuti primer medicinskih robota u pametnoj bolnici (Mackay Memorial na Tajvanu) ilustruje kako Blackwell omogućava nove kliničke aplikacije worldbusinessoutlook.com worldbusinessoutlook.com. Ti roboti koriste Blackwell GPU-ove na licu mesta za razumevanje govora, pronalaženje medicinskih informacija i kretanje kroz bolnicu. U širem smislu, bolnice bi mogle koristiti Blackwell servere kao centralizovane AI hub-ove – za sve od predviđanja pogoršanja stanja pacijenata (preko velikih vremenskih modela signala vitalnih funkcija) do optimizacije operacija (npr. upravljanje krevetima putem reinforcement learning-a). Blackwell-ove RAS karakteristike obezbeđuju pouzdan 24/7 rad kritičnih sistema, a sigurni okviri štite podatke pacijenata kada se modeli treniraju na osetljivim zdravstvenim podacima. Kako je rekao jedan direktor bolnice uključen u pilot projekt robota, „ovo partnerstvo unapređuje kvalitet usluge pacijentima i optimizuje interne procese rada“ worldbusinessoutlook.com – izjavu koja će verovatno biti često ponavljana kako AI postaje sastavni deo zdravstvenih sistema.

Poređenje Blackwell-a sa drugim AI akceleratorima

Dok NVIDIA trenutno prednjači na tržištu AI akceleratora, Blackwell se suočava sa konkurencijom drugih hardverskih platformi. Ovde upoređujemo Blackwell sa glavnim konkurentima:

AMD Instinct MI300 serija (i naslednici)

AMD-ova Instinct linija je glavni konkurent NVIDIA-i po pitanju GPU-ova za AI u data centrima. Najnoviji MI300X i MI300A akceleratori (na bazi AMD CDNA3 arhitekture) dele slične dizajnerske filozofije sa Blackwell-om – naročito koriste čiplet dizajn i HBM memoriju. MI300A je APU koji objedinjuje CPU i GPU u jednom paketu (podsećajući na NVIDIA-in Grace+Blackwell superčip koncept), dok je MI300X GPU-varianta sa 192 GB HBM3. Po performansama, AMD tvrdi da MI300X može parirati ili čak nadmašiti NVIDIA Hopper (H100) u određenim inference zadacima research.aimultiple.com research.aimultiple.com. Zaista, nezavisni MLPerf rezultati pokazuju da AMD MI325 (varijanta MI300) radi podjednako dobro kao Nvidia H100 (osveženje „H200“) na Llama-70B jezičkom modelu spectrum.ieee.org. Međutim, NVIDIA Blackwell je znatno ispred na ultra-visokom nivou – jedna analiza navodi da, ako je sirova propusnost (broj tokena u sekundi uz malu latenciju) merilo, „NVIDIA Blackwell je u svojoj ligi“ među akceleratorima za 2024–2025 ai-stack.ai. Prvi podaci upućuju na to da B100 znatno nadmašuje MI300X (možda 2–3× u throughput-u za transformatore), iako uz značajno veću potrošnju energije.

Jedna od prednosti na koju AMD stavlja akcenat jeste isplativost i otvorenost. MI300 GPU-ovi podržavaju alternativne softverske pakete poput ROCm-a, a AMD aktivno sarađuje sa open-source AI okvirima (čak su partneri sa Meta-om i Hugging Face-om na optimizaciji modela za AMD GPU-e research.aimultiple.com). Za neke cloud provajdere i korisnike u Kini (koji se suočavaju sa ograničenjima za uvoz NVIDIA research.aimultiple.com), AMD GPU-ovi mogu biti privlačna alternativa. Ipak, izazov za AMD je softverski ekosistem – CUDA i NVIDIA biblioteke imaju bolju podršku. Znakovito je što je došlo do javne rasprave kada su NVIDIA i AMD benčmarkovali jedna drugoj GPU-ove: pravi softverski parametri prave veliku razliku, a mnogi smatraju da je NVIDIA-ina softverska platforma zrelija research.aimultiple.com research.aimultiple.com. Ukratko, AMD MI300 serija je konkurentna NVIDIA-inoj prošloj generaciji (Hopper), a AMD-ova sledeća generacija (MI350, koja će se takmičiti sa Blackwell/H200 research.aimultiple.com) pokušaće da smanji razliku. Za sada, Blackwell ostaje u prednosti po pitanju performansi na najvišem nivou, naročito za najveće modele i klaster-deploymente.

Intel (Habana Gaudi i budući „Falcon Shores“)

Intel-ovi pokušaji u AI akceleratorima idu u dva pravca: akvizirani Habana Gaudi za AI treniranje i Intel-ove interne GPU arhitekture (Xe HPC). Gaudi2 akcelerator (lansiran 2022) je bio alternativa NVIDIA A100 za treniranje, sa konkurentnim performansama na ResNet i BERT testovima uz nižu cenu. Ipak, Gaudi2 je imao problema sa usvajanjem softvera, a dok je Gaudi3 najavljen, Intel je imao skromna prodajna očekivanja (~$500M u 2024) research.aimultiple.com research.aimultiple.com. Intel je nedavno napravio strateške promene – projekat Falcon Shores, višestruko najavljivan kao hibridni CPU+GPU XPU koji bi bio konkurencija Grace Hopperu, doživeo je kašnjenje i redefinisanje. Intel je na kraju „de-XPUovao“ Falcon Shores u dizajn samo sa GPU-om i planirao ga za 2025. godinu hpcwire.com hpcwire.com. Postoje čak i spekulacije da Intel može potpuno otkazati ili radikalno promeniti ove high-end AI čipove i fokusirati se na određene niše (kao što su inference akceleratori), gde su jači crn.com bloomberg.com.

U međuvremenu, Intel-ov najkonkretniji proizvod ostaje Ponte Vecchio / Max Series GPU, koji pokreće Aurora superračunar. Ponte Vecchio je složen GPU sa 47 čipova, čije lansiranje je kasnilo godinama, a njegovi derivati (Rialto Bridge) su otkazani. GPU-ovi iz Aurore daju dobre FP64 HPC performanse, ali u AI i dalje otprilike odgovaraju A100/H100 nivou za mnoge zadatke. Izazov za Intel su bili izvođenje i obim – njihova arhitektura je teoretski snažna, ali dovesti do gotovog čipa na vreme i sa stabilnim drajverima je veoma teško.

У директном поређењу, Blackwell vs Intel: тренутно, не постоји Intel производ који директно изазива Blackwell-ову комбинацију перформанси у тренирању и екосистема. Чини се да Intel-ова стратегија прелази на коришћење њихових процесора (са AI екстензијама) и можда мањих Gaudi акцелератора за инференцију, уместо да се такмиче у највећим кластерима за тренирање. Како је један HPC аналитичар рекао, изгледа да Intel „признаје пораз на тржишту AI тренинга у корист ривала са GPU-ом” и фокусира се на лакше победе hpcwire.com. Импликација је да ће Blackwell највероватније доминирати у сегменту врхунског тренирања без конкуренције од стране Intela бар до 2025/2026, када/ако се Falcon Shores појави. Чак и тада, гласине указују да ће Falcon Shores циљати на нишу (могуће врло високу потрошњу од 1500 W за специфична оптерећења) reddit.com wccftech.com, па остаје нејасно да ли ће заиста конкурисати Blackwell-базираној DGX платформи уопштено. Засад, Intel је и даље далеко трећи у AI акцелерацији, са својом јачином у процесорима која остаје релевантна (нпр. многи AI системи користе Intel Xeon сервере, а Intel је уградио AI инструкције у процесоре за лакша оптерећења).

Google TPU-ови (Tensor Processing Units)

Google је кренуо другачијим путем са својим интерним TPU-овима, специјализованим ASIC-овима прилагођеним за рад са неуронским мрежама (посебно Google-ов софтвер попут TensorFlow). Најновија јавна генерација је TPU v4, који Google користи у дата центрима и доступан је на Google Cloud-у. TPUv4 подови (4096 чипова) наводно постижу ~1 ексафлоп BF16 рачунања и коришћени су за тренирање великих модела као што је PaLM. Тачне спецификације су делимично власничке, али је TPUv4 отприлике упоредив са NVIDIA A100/H100 ером по перформансама. Међутим, Google је недавно најавио следећу генерацију платформе под кодним именом „Trillium” TPU v5 (у неким извештајима наведено и као TPU v6, са Ironwood као конкретним дизајном) research.aimultiple.com research.aimultiple.com. За Ironwood TPU чип наводи се да обезбеђује 4.614 TFLOPS AI рачунања (вероватно INT8 или BF16) по чипу и скалира се до суперподова са 9216 чипова који испоручују 42,5 ексафлопа research.aimultiple.com. Посебно, Google-ов TPU v5 има 192 GB HBM по чипу (исто као Blackwell по меморији), 7,2 TB/s меморијски проток (у рангу или виши), и побољшани интерконект од 1,2 Tbps између чипова research.aimultiple.com. Такође има двоструко бољу енергетску ефикасност у односу на TPUv4. Ови подаци показују да су најновији TPU-ови од Google-а у истој класи као Blackwell по многим параметрима.

Разлика је у томе што TPU-ови нису широко доступни ван Google-ове унутрашње употребе и корисника њиховог облака. Одлични су за задатке као што су велика множења матрица и покрећу Google производе (претрага, фотографије, итд.), али чине затворенији екосистем. На пример, TPU је оптимизован за TensorFlow и JAX на Google Cloud-у, док се NVIDIA GPU-ови користе свуда са различитим фрејмворковима. Упоређујући Blackwell и TPU за велико-скаларни AI: Blackwell нуди више флексибилности (широку подршку за типове модела, custom ops, итд.), док TPU може понудити нешто бољу ефикасност на добро дефинисаним Google радним оптерећењима. Google ће вероватно наставити да користи TPU-ове интерно због трошкова, али је индикативно да чак и Google планира да понуди Blackwell GPU-ове на Google Cloud-у заједно са својим TPU-овима nvidianews.nvidia.com. То сугерише да многи клијенти више воле NVIDIA стек или им је потребна већа разноврсност. Укратко, Google TPU-ови су изузетни – најновији паритетирају Blackwell-овим сировим спецификацијама – али служе ужем тржишту. Blackwell задржава предност у општој прихваћености и подршци за софтвер, због чега чак и Google сарађује са NVIDIA-ом (како је Пичај напоменуо, имају „дугогодишњу сарадњу” са NVIDIA-ом на нивоу инфраструктуре) nvidianews.nvidia.com.

Cerebras (Wafer-Scale Engine)

Cerebras Systems је прихватио јединствен приступ изградњом Wafer-Scale Engine (WSE) – AI чипа који је заправо величине целог силицијумског вафера. Тренутни WSE-2 има 2,6 билиона транзистора и 850.000 једноставних језгара за рачунање на једном уређају research.aimultiple.com, што је знатно више од било ког конвенционалног чипа по броју транзистора. Предност овог приступа је што сва та језгра деле брзу меморију и комуникацију на самом ваферу, чиме се избегава потреба за умрежавањем више чипова. За тренирање веома великих модела, Cerebras понекад може да држи цео модел на једном ваферу, чиме се елиминише комплексност паралелизације као код GPU-ова. Ипак, свако језгро је релативно једноставно, а радни тактови су скромни, па укупан проток не расте директно са бројем транзистора. У пракси, Cerebras CS-2 систем (са једним WSE-2) показао је способност тренирања модела попут GPT-3 на једноставнији начин (без потребе за распаралелизацијом као код GPU кластера), али перформансе по долару нису јасно надмашиле GPU-ове осим у специфичним случајевима. Cerebras је недавно представио WSE-3 са још већим бројем транзистора (наводно 4 билиона транзистора) research.aimultiple.com.

Упоређивање са Blackwell-ом: Cerebras WSE може да обради веома велике мреже у меморији, али Blackwell-ово густо рачунање и већа фреквенција значе да сваки Blackwell GPU може да изврши више операција по секунди на типичним задацима дубоког учења. На пример, Blackwell-ових 40 PFLOPS на FP4 је тешко достићи за Cerebras осим ако се њихове функције за рад са разређеним подацима (sparsity) не искористе у потпуности. Cerebras промовише своје решење као једноставније за масштабирање (само додајте више вафера за веће моделе, повезане преко MemoryX и SwarmX тканине), и блиста на великим разређеним моделима или када је меморија уско грло. Али, за стандардно тренирање густих модела, GPU кластери (посебно са унапређењима попут Blackwell-а) и даље постижу резултате брже. Ипак, Cerebras је пронашао нишу у појединим истраживачким лабораторијама и као cloud услуга, погодан за оне који желе да избегну комплексност програмирања за више GPU-ова. Појава Blackwell-а са огромном јединственом меморијом и бржим интерконектом вероватно затвара део јаза на који је Cerebras циљао по питању величине и масштаба модела.

Graphcore IPU

Graphcore, британски стартап, развио је Intelligence Processing Unit (IPU) са фокусом на фино-зрнасту паралелизацију и висок меморијски проток по рачунском језгру. Један IPU чип садржи много мањих језгара (1.472 језгра у њиховом GC200 чипу), при чему свако има локалну меморију, омогућавајући масивно паралелно извршавање неуронских мрежа са нерегуларном структуром. Graphcore-ови IPU-POD системи (нпр. IPU-POD256 са 256 чипова) показали су добре перформансе на задацима попут разређених неуронских мрежа и граф неуронских мрежа. Приступ Graphcore-а је мање заснован на сировим TFLOPS, а више на извршавању модела код којих су зависности комплексне (не само множења великих матрица). У поређењу са NVIDIA-ом: Graphcore тврди конкурентне брзине тренирања на неким моделима за компјутерски вид и ефикасност при малим серијама. Међутим, како су модели еволуирали ка великим густим трансформерима, IPU-ови тешко прате захтеве по FLOPS и меморији. Најновији Bow IPU користи 3D-стекирану меморију за више пропусности, али сваки чип и даље има много мање меморије (≈ 900MB по IPU) у односу на GPU, па велики модели захтевају много IPU јединица и комплексно шардовање. NVIDIA Blackwell, са огромном меморијом и специјализованим убрзањем трансформера, вероватно још више повећава разлику на популарним задацима (LLM, итд.). Graphcore се фокусира на специфична тржишта (остварили су успех у финансијама и појединим научним институцијама research.aimultiple.com) и истичу потенцијално бољу енергетску ефикасност за моделе средње величине. Ипак, Blackwell-ове добити у ефикасности и инерција софтверског екосистема (PyTorch и др. углавном прво оптимизовани за CUDA) стављају Graphcore у незавидну позицију за широку примену. Укратко, IPU Graphcore-а је иновативна архитектура која конкурише у уским сегментима, али Blackwell GPU-ови остају преферирани радни коњ за већину AI задатака.

Tenstorrent и други AI чип стартапи

Талас стартапова покушава да изазове NVIDIA новим архитектурама, често циљајући специфичне нише попут енергетске ефикасности или јефтиног инференса:

Tenstorrent: Ко-оснивач је познати чип архитекта Џим Келер, а Tenstorrent дизајнира AI чипове базиране на флексибилној датафлоу архитектури и користи RISC-V језгра. Њихов најновији чип, Wormhole, нуди се у PCIe картицама и серверима (као Tenstorrent-ов Galaxy систем) за AI тренирање и инференцију research.aimultiple.com. Tenstorrent инсистира на модуларном дизајну и чак је лиценцирао свој IP за друге SoC-ове. Недавно су прикупили значајна средства (преко $200M, укључујући и инвестицију Џефа Безоса) као опкладу да ће конкурисати NVIDIA-ји research.aimultiple.com. Стратегија Tenstorrent-а је да буду лиценцируеми AI акцелератор који се може интегрисати у разне системе (чак и ауто-индустрија или edge). По перформансама, јавни подаци су оскудни; вероватно су конкурентни са NVIDIA картицама средње класе на ResNet или мањим Transformer моделима, али далеко од Blackwell-овог врха. Њихова архитектура може да заблиста у сценаријима с малом потрошњом или edge дата центрима захваљујући RISC-V програмабилности и потенцијално бољој ефикасности. Ако наставе да иновирају, Tenstorrent може пронаћи своје место, али краткорочно Blackwell доминира по апсолутним перформансама и екосистему.
Mythic, Groq, d-Matrix, итд.: Неколико стартапова циља инференцијску акцелерацију неконвенционалним методама. Mythic користи аналогну меморију за матрично множење са врло ниском потрошњом. Groq (који су основали бивши Google инжењери који су радили на TPU) направио је процесор који процесира инструкције у детерминистичком цевоводу (“тензорски стриминг процесор”) и тврде ниску латентност и одличне перформансе на batch-1 задацима – Groq наводи предности у неким стварним inference задацима у реалном времену. d-Matrix прави чипове за урањење великих језичких модела користећи in-memory рачунарство али дигиталним путем. Ови стартапови покривају део тржишта где је NVIDIA можда “overkill” или неефикасан: на пример, Mythic за ултра-штедљиве edge уређаје, Groq за системе критичне на кашњење, d-Matrix за јефтино извршавање LLM-а. Међутим, сви имају изазов са интеграцијом у софтвере и ограниченом применом. Groq чвор можда надмаши слабо коришћен GPU на неком специфичном real-time задатку, али Blackwell-ова скала и зрелост софтвера чине га сигурнијим избором за већину датацентара. Важно је напоменути да NVIDIA сама снажно улази у inference преко оптимизованог софтвера (попут Triton Inference server-а) и комбинација попут Grace Hopper-а. То значи да стартапови морају остати далеко испред у својој ниши. Ниједан засад не прети Blackwell-овој доминацији у врхунском тренирању, али доприносе разноврсности акцелераторског екосистема.
AWS Trainium и остали: Поред горе наведених, неки cloud провајдери развијају сопствене AI чипове (AWS-ов Trainium за тренирање и Inferentia за инференцију, Microsoft-ов наводни Athena чип, итд.). Trainium v2 кластери се наводно користе интерно у AWS-u (нпр. за Anthropic тренирање) research.aimultiple.com. Ови прилагођени чипови имају за циљ смањење зависности од NVIDIA-е и оптимизацију за конкретне радне токове cloud провајдера (обично по нижој цени). Иако нису “стартапови”, важни су конкуренти јер могу одузети део користи NVIDIA-и у cloud-у. Присуство Blackwell-а у cloud-у показује да је NVIDIA и даље у великој потражњи, али дугорочни конкурентски притисак од домаћих силицијума ће утицати на цене и могућности.

Суштина: NVIDIA Blackwell тренутно представља врхунац AI акцелератора у 2025, али конкуренција је жива. AMD брзо прати (посебно у инференцији и са GPU-овима богатим меморијом), Google-ови TPU-ови изазивају NVIDIA-у на нивоу суперкластерског скала (иако само унутар Google-а), а стартапови/алтернативе иновирају по питању ефикасности и интеграције. Као што једна Bloomberg-ова анализа каже, „За клијенте који журе да тренирају AI системе… предност у перформансама Hopper-а и Blackwell-а је кључна”, али питање је колико дуго ће NVIDIA одржати ту предност док други масовно улажу у AI чипове bloomberg.com. До сада, NVIDIA-ина агресивна роудмеп стратегија (Blackwell само 2 године после Hopper-а са великим скоковима у перформансама) држала је ову компанију испред конкуренције.

Изгледи за будућност: Трендови у убрзавању AI хардвера

Са Blackwell-ом који поставља нове стандарде, шта следи за AI хардвер? Неколико главних трендова је видљиво на хоризонту:

Континуирана еволуција мултичип и чиплет дизајна: Дизајн са два кристала код Blackwell-а је вероватно тек почетак. Будући убрзивачи могу интегрисати још више чиплета – на пример, раздвајање функционалности на compute и меморијске плочице, или мешање GPU језгара са специјализованим AI језгрима. AMD и Intel већ истражују 3D слагање (нпр. AMD V-Cache на CPU-овима, могућност за слагање HBM или SRAM на GPU-ове). NVIDIA би могла усвојити 3D интеграцију у будућим архитектурама како би поставила кеш или логику изнад израчунских кристала ради брзине и ефикасности. Нови UCIe стандард за чиплет везу омогућиће мешање чиплета разних произвођача у једном пакету (замислите будући модул са NVIDIA GPU чиплетом и трећепартним AI убрзивачем или прилагођеним IO чиплетом). Успех Blackwell-овог MCM-а осигурава да је ера монолитних гигантских кристала завршена – чиплет дизајн ће бити норма за врхунске убрзиваче ради даље скалабилности перформанси.
Специјализација за AI оптерећења: Како се AI оптерећења диверзификују, можемо очекивати више специјализованих јединица у убрзивачима. Blackwell је већ додао Transformer Engine. Будући дизајни могу да садрже посебан хардвер за алгоритме препорука (који користе разређене меморијске приступе), или за граф неуронске мреже, или за симулације reinforcement learning-а. Такође постоји интересовање за аналогно рачунарство за неуронске мреже (како ради Mythic), ради драстичног смањења потрошње енергије, али ће се то вероватно прво појавити у ниш производима. Очекује се и подршка за нове нумеричке формате – Blackwell-ов FP4 може бити праћен новим варијацијама (нпр. block floating point, стохастичко заокруживање) да би се добила још већа ефикасност. У суштини, концепт „tensor core“-а прошириће се на много шири спектар AI операција.
Напредак у међу-комуникационим везама – оптичке и даље: NVLink 5 је електрични, али како GPU кластери иду ка ексаскејл рачунарству, бакарне везе могу достићи границе домета и енергетске ефикасности. Индустрија истражује оптичке међу-везе за комуникацију унутар ракова и чак између чипова. NVIDIA-ина куповина мрежних компанија (Mellanox, Cumulus итд.) и пројекти попут Quantum InfiniBand свича са in-network compute (SHARP) показују нагласак на мрежној технологији. У наредним годинама можемо очекивати GPU-ове са оптичким излазима за директну фибер везу између сервера, или фотонске NVLink-интерфејсе који одржавају висок пропусни опсег на даљини. Ово би омогућило још веће дисагрегиране кластере (вероватно хиљаде убрзивача) који функционишу као један, што је корисно за огромне моделе и дистрибуисано извођење.
Енергетска ефикасност и одрживост: Како модели и дата центри расту, потрошња струје постаје велики проблем. Blackwell GPU-ови имају велику потрошњу (вероватно 700W+ за B100 SXM модул), иако су ефикаснији по рачунској јединици од претходника, укупна потрошња AI инфраструктуре расте. Будући хардвер ће морати знатно да побољша перформансе по вату. Стратегије укључују прелазак на мање процесне технологије (3nm, 2nm), употребу нових транзисторских типова (Gate-all-around FETs), динамичко прилагођавање напона и фреквенције по оптерећењу AI задатком и боље хлађење (NVIDIA је већ увела потапајуће и течно хлађене конфигурације за Blackwell HGX системе nvidia.com). Можемо видети и архитектонске промене попут мешања нископрециxних и аналогних израчунавања за делове мрежа ради смањења потрошње. AI убрзивачи за Edge и IoT такође ће се проширити – они приоритет дају ниској потрошњи, а IP компанија попут ARM-a, Qualcomm-а и Apple-а (неурални енџини у телефонима, итд.) ће преузимати искуства из врха индустрије. NVIDIA би могла увести наследника Jetson линије са архитектуром изведеном из Blackwell-а, оптимизовану за edge inferencing у роботици, камерама и возилима, уносећи део дата центарских могућности у области са малом потрошњом енергије.
Равнотежа између рачунара на edge-у и cloud-у: Како хардвер постаје снажнији, неки AI задаци који тренутно захтевају cloud позадину могу прећи на уређаје. На пример, будуће AR/VR наочаре или кућни роботи могу имати мини-Blackwell убрзиваче за локално извођење сложених AI алгоритама (ради латенције и приватности). Ово може довести до више федеративног AI рачунарског модела. Тренд edge рачунара тражи убрзање не само у великим серверима већ и у малим, лако распоређивим облицима. Можемо очекивати утицај Blackwell-а у SoC дизајнима (као што је DRIVE Thor за аутомобиле, можда сличан за дронове или индустријске контролере). Изазов је обезбедити високе перформансе у оквиру ограничења потрошње и температуре – чиме се баве стартапи попут EdgeCortex или произвођачи мобилних чипова. Временом ће се разлика између „AI GPU-а“ и општег SoC-а замаглити, јер ће готово сви уређаји имати неки облик AI убрзавања.
Интеграција AI и традиционалног HPC-а: Будућност може донети још тешњу интеграцију између CPU и GPU-а (или AI убрзивача). NVIDIA Grace (CPU) + Blackwell (GPU) суперчип је један корак у том смеру. AMD-ови APU-ови су други пример. Intel-ова визија Falcon Shores (x86 + Xe GPU) има сличне амбиције. Како се стандард за меморијску кохерентност унапређује (нпр. CXL за повезивање меморије између убрзивача и CPU-ова), можемо очекивати системе где AI убрзивачи имају јединствену меморију са CPU-овима, смањујући трошкове копирања података. Ово је важно за радне токове који комбинују симулацију и AI (на пример, коришћење AI модела у петљи физичке симулације). На дуге стазе, можда се појаве „XPU” архитектуре које обједињују различите типове језгара – скаларна, векторска, матрична – за све аспекте апликације. За сада, комбинација Grace CPU-а и Blackwell GPU-а преко NVLink-а је водећи пример овог тренда, са скоро 1 TB/s кохерентности што омогућава глатко спајање CPU и GPU задатака nvidia.com. Будући чипови могу бити још интегрисанији (можда чак и на истој плочи када то буде могуће).

Суштински, будућност AI хардвера подразумева гурање граница перформанси уз паралелни фокус на ефикасност и нове форм факторе. Конкуренција ће подстицати брзу иновацију – NVIDIA неће мировати, али ни AMD, Intel, Google, нити бројни стартапи. Вероватно ћемо видети разноврсне убрзиваче оптимизоване за различите размере (cloud, edge) и намене (тренирање, извођење, специјализација). Ипак, судећи по тренутном замаху NVIDIA-е са Blackwell-ом, очекује се да ће они задавати ритам бар у блиској будућности. Џенсен Хуанг често говори о „убрзаном рачунарству” као великој визији NVIDIA-е nvidianews.nvidia.com, што значи да ће GPU-ови еволуирати да убрзају било који рачунарски задатак. Blackwell и њени наследници могу постајати све општији, преузимајући рад не само на неуронским мрежама – од обраде података до AI-погоњених упита база података – бришући разлику између AI чипова и општих процесора.

Утицај на тржиште и импликације

Увођење Blackwell-а има дубок утицај на AI индустрију и тржиште:

Пружаоци cloud услуга: Хиперскејлери (AWS, Azure, Google Cloud, Oracle) такмиче се у брзом увођењу Blackwell GPU-ова у своје дата центре, јер је потражња клијената за AI рачунским ресурсима незасита. Сваки је најавио доступност Blackwell-а у 2024–2025 nvidianews.nvidia.com. Ово ће вероватно ојачати доминацију NVIDIA-е у cloud GPU сегменту, иако ти провајдери развијају и сопствене чипове. Краткорочно, cloud корисници ће имати користи од приступа снажнијим инстанцама – нпр. AWS корисник може изнајмити Blackwell инстанцу и добити много брже тренирање или више извршења AI упита по долару него раније. Ово би могло смањити cloud AI трошкове (или бар веће перформансе за исти новац), омогућавајући стартапима да постигну ствари (попут тренирања великог модела) које су некада захтевале велике буџете. Са друге стране, cloud-ови ће пажљиво пратити трошкове; Blackwell GPU-ови су изузетно скупи (на десетине хиљада долара по комаду), тако да ће cloud цене одражавати премиум карактер. Већ је cloud GPU капацитет ограничен због велике потражње за H100 – са још већом популарношћу Blackwell-а (и ограниченим првим количинама), можемо видети несташице или алокационе проблеме и у 2025. Они cloud провајдери који обезбеде велике хардверске количине Blackwell-а (као Oracle са раним приступом, или AWS кроз заједничке развојне уговоре nvidianews.nvidia.com) могу привући више AI-захтевних клијената.
Предузећа и усвајање AI: За велике компаније, системи на бази Blackwell-а смањују баријеру за усвајање напредних AI решења. Индустрије као што су финансије, телекомуникације, малопродаја и производња се такмиче у увођењу AI-а у своје процесе и производе. Са ефикасношћу Blackwell-а, компанија може добити потребну рачунску снагу са мање чворова – на пример, где је раније требало 16 DGX сервера, можда ће сад требати 4 система на бази Blackwell-а за исто AI оптерећење. Ово смањује не само број хардверских јединица, већ и потрошњу струје и простор (што је важно за компаније које воде рачуна о трошковима енергије и угљеничном отиску). Можемо очекивати талас AI модернизационих пројеката како Blackwell постаје доступан: на пример, банке ће унапређивати платформе за процену ризика и откривање превара Blackwell кластерима за софистицираније моделе, или ауто-компаније користиће Blackwell за знатно брже развијање аутономне вожње (што је већ виђено са неколико ауто произвођача који прелазе на Drive Thor). Предузећа ће ценити и функционалности као што је поверљива обрада података на Blackwell-у како би испунили регулаторне захтеве – нпр. здравствена установа може чувати податке пацијената шифрованим током комплетне обраде уз снажне GPU-ове за анализу nvidia.com.
AI стартапи и истраживачке лабораторије: За стартапе фокусиране на AI (да ли развијају нове моделе или AI-засноване сервисе), Blackwell перформансе могу бити пресудне. То донекле изједначава терен са великим технолошким компанијама, јер стартапи сада могу користити исти врхунски хардвер преко cloud или колокационих провајдера (неколико cloud фирми као што су CoreWeave, Lambda итд. нуде Blackwell већ у 2024. nvidianews.nvidia.com). То значи да добро финансиран стартап може тренирати врхунски модел без чекања месецима у реду или компромиса по питању величине модела. Можемо очекивати брже иновације и више такмичења у развоју AI модела као последицу. Са друге стране, ово би могло да створи шири јаз између оних који могу да приуште врхунски хардвер и оних који не могу. Тренутно су најбољи NVIDIA GPU-ови скупи и често су приоритетно доступни великим купцима – што је довело до притужби истраживача током H100 циклуса. Ако Blackwell буде подједнако тражен, неке мање лабораторије би и даље могле имати проблем са приступом. Ово може подстаћи већу употребу заједничких суперкомпјутера (академски кластери са Blackwell-ом финансирани државним средствима) или прелазак на алтернативне чипове (као AMD, ако буду доступни раније или јефтиније). Али генерално, широка доступност Blackwell-а до средине 2025. ће експоненцијално убрзати AI истраживања и развој, што ће довести до нових модела и могућности које нисмо видели раније (јер је рачунска снага била уско грло).
Конкурентски пејзаж: Са тржишне стране, лансирање Blackwell-а додатно учвршћује позицију NVIDIA-е као лидера у AI хардверу. Аналитичари напомињу да NVIDIA држи око 80-90% тржишта убрзивача, а предност Blackwell-а ће тешко полjuljati конкуренција reddit.com. AMD је најближи конкурент – њихова стратегија да освоје 15-20% удела у наредним годинама зависи од успеха MI300 и испоруке нове генерације на време. Ако се Blackwell покаже доминантним и буде усвојен свуда, неки корисници можда уопште неће разматрати алтернативе, што учвршћује доминацију NVIDIA-е (слично као што је CUDA постала default платформа). Ипак, због огромне вредности AI тржишта (броји се у билионима долара), има простора за више играча. Cloud провајдери се обезбеђују улагањем и у сопствене чипове (Google TPU, AWS Trainium). Ако се то покаже успешним, може ограничити раст NVIDIA-е у cloud сегменту временом. Ту су и геополитички фактори – кинеске технолошке компаније не могу да увозе најјаче NVIDIA GPU-ове због контрола извоза, што их тера на развој домаћих AI чипова (Biren, Alibaba T-Head, Huawei Ascend). Ти домаћи чипови сад заостају генерацију-две (отприлике еквивалент A100) research.aimultiple.com research.aimultiple.com, али могу напредовати и створити паралелне екосистеме. NVIDIA је одговорила нешто измењеним моделима (нпр. H800 за Кину). Blackwell ће вероватно такође имати „извозно ограничене“ варијанте. Шира импликација је могућа фрагментација AI хардвер тржишта по географији, иако је тренутно NVIDIA основни избор за већину света.
Цена и економија AI-а: Перформансе Blackwell-а могу значајно да смање цену по трејнингу или инференцији, како се најављује. Ово може убрзати увођење AI-а у секторе осетљиве на трошкове. На пример, 25× већа ефикасност у инференцији може омогућити да се веома велики језички модел користи у потрошачкој апликацији која би до сада била прескупа за извршавање на H100. Замислите AI функционалности у софтверу (као office асистенти, copilot-алати за програмирање, итд.) који ће бити јефтиније за понуду и тиме све присутнији. Можда ћемо видети и нове “AI-kao-usluga” понуде које користе Blackwell, где фирме нуде да обуче или хостују моделе на Blackwell инфраструктури (неке стартапе попут MosaicML – сада део Databricks – то већ раде с претходном генерацијом GPU-ова; Blackwell ће унапредити такве сервисе). Са друге стране, апсолутни трошак врхунских GPU-ова значи да ће расходи за AI рачунарство остати високи – компаније ће трошити сличне своте, али ће моћи много више AI-а да обаве. У ствари, сама вредност NVIDIA-е (бројане у билионима долара) одражава очекивања тржишта да ће потражња за овим убрзивачима наставити да расте како AI продире у све. Ако ништа друго, Blackwell појачава тренд AI-гладног рачунарства: већом понудом (рачунске снаге), ствара нове апликације, које даље подстичу раст потражње.
Иновациони повратни механизам: Широка инсталација Blackwell-а може утицати и на правце истраживања. Истраживачи могу сада реално да покушају веће експерименте или много интензивније приступе (попут огромних ансамбала, или тренирања на јако дугим секвенцама) које не би покушавали са лимитираним хардвером. Ово може довести до напретка који је чекао доступност велике рачунске снаге. Пример: истраживање 3D AI модела у пуној резолуцији или мултимодалних модела који виде и чују уз невиђену комплексност. То је слично као када је HPC омогућио нову науку. У AI-у, широко доступна екстремна снага преко Blackwell-а може откључати нове архитектуре (можда нешто изван домета Transformer-а) које раније нису биле изводљиве.
Времеплов до следеће генерације: Коначно, утицај Blackwell-а зависиће и од тога колико дуго ће остати застава на тржишту пре новог скока. NVIDIA има ритам нових архитектура на око 2 године. Ако то наставе, можемо очекивати наследника (кодног имена вероватно на слово “C” ако прате азбучно редно именовање по научницима – можда “Curie” или слично) до 2026/27. За сада, током 2025. и вероватно 2026, Blackwell ће бити кичма већине најсавременијих AI инсталација. Његов успешан продор ће утицати на потезе конкуренције (нпр. AMD може убрзати следеће лансирање; Intel може одлучити да појача или промени стратегију).

Закључно, NVIDIA Blackwell није само нови чип – то је катализатор који убрзава целом AI екосистему. Омугућава инжењерима и истраживачима да постигну више, обећава брже увиде и паметније производе фирмама, и присиљава конкуренте да побољшају своју понуду. Од мегадата центара за AI до аутономних машина на edge-у, Blackwell и његови наследници ће водити следећи талас AI иновација, правећи стварну транзицију ка “Blackwell-у и даље” у будућност убрзаног рачунарства.

Izvori: Informacije u ovom izveštaju su preuzete iz zvaničnih NVIDIA saopštenja i tehničkih dokumenata o Blackwell arhitekturi nvidia.com nvidianews.nvidia.com, analiza stručnjaka iz industrije i publikacija (IEEE Spectrum, HPCwire, Forbes) na temu poređenja performansi spectrum.ieee.org ai-stack.ai i saopštenja NVIDIA partnera koji ističu primenu u oblaku, automobilskoj industriji i zdravstvu nvidianews.nvidia.com worldbusinessoutlook.com. Ovi izvori uključuju NVIDIA-ine GTC 2024 najave nvidianews.nvidia.com, tehničke blogove cudocompute.com cudocompute.com i nezavisne evaluacije nove AI hardverske opreme research.aimultiple.com bloomberg.com. Zajedno, oni pružaju sveobuhvatan prikaz mogućnosti Blackwell arhitekture i njenog konteksta u razvoju AI hardverskih rešenja.