Blackwell של NVIDIA היא ארכיטקטורת ה-GPU החדשה ביותר של החברה, שמגיעה אחרי הארכיטקטורות Hopper (H100) מ-2022 ו-Ampere (A100) מ-2020 nvidianews.nvidia.com cudocompute.com. היא נקראת על שמו של המתמטיקאי דייוויד בלאקוול, כמסורת NVIDIA להנציח חלוצי מחשוב cudocompute.com. ה-GPU-ים מסדרת Blackwell מייצגים קפיצה ענקית בביצועים וביכולות, עם מטרה לענות לדרישות המאמירות של בינה מלאכותית (AI) בקנה מידה גדול. מנכ"ל NVIDIA, ג'נסן הואנג, תיאר את Blackwell כ-“המנוע שיניע את המהפכה התעשייתית החדשה” של עידן ה-AI nvidianews.nvidia.com. בדוח זה נציג סקירה מקיפה של טכנולוגיית Blackwell, החדשנויות שמביאה לעומת דורות קודמים, ומשמעותה לאימוני AI גדולים ולהיסק (inference) ב-AI. נבחן מקרים בתעשיות מכל הסוגים – ממודלים שפתיים עצומים ועד רובוטיקה ורפואה – ונשווה את Blackwell למאיצי AI מתחרים של AMD, Intel, Google וסטארטאפים מובילים. לבסוף נציג מגמות עתידיות בתחום האצת חומרה ל-AI ואת ההשפעה השוקית של הדור החדש של שבבי AI אלו.
סקירה טכנית של ארכיטקטורת Blackwell
ה-GPU-ים של Blackwell מיוצרים בתהליך 4N+ של TSMC, וכוללים כמות מדהימה של 208 מיליארד טרנזיסטורים במארז יחיד nvidia.com. מדובר בכמעט פי 2.5 מטרנזיסטורים לעומת Hopper H100 (~80 מיליארד) שהיו בדור הקודם, מה שהופך את Blackwell לשבב המורכב ביותר בעולם כיום cudocompute.com nvidianews.nvidia.com. כדי להגיע לכך, בחרה NVIDIA בארכיטקטורת multi-die: שני שבבי GPU בגבול הרטיקל ממוקמים על מודול אחד ומחוברים בקישור מהיר של Chip-to-Chip במהירות 10 טרה-בייט לשנייה nvidia.com cudocompute.com. בפועל, שני השבבים פועלים כ-GPU מאוחד, מה שמאפשר להגדיל מאוד את מספר הליבות והזיכרון המודולרי תוך שמירה על מגבלות ייצור. כל שבב Blackwell מוצמד לארבעה סטאקים של זיכרון HBM3e (סה"כ 8 סטאקים למודול GPU), ומגיע עד 192GB זיכרון HBM בדגמים המובילים cudocompute.com. רוחב הפס הכולל לזיכרון מגיע לכ-8 טרה-בייט/שנייה ל-GPU (שני שבבים יחד), פי 5 מרוחב הפס של Hopper cudocompute.com. הכמות העצומה הזו מאפשרת ל-Blackwell להריץ בזיכרון מודלים של עד ~740 מיליארד פרמטרים – פי 6 יותר ממה ש-Hopper יכל לתמוך בו cudocompute.com.
מעבר לגודל, Blackwell מביאה שש טכנולוגיות משנה משחק לארכיטקטורה שלה nvidianews.nvidia.com nvidianews.nvidia.com:
- דור חדש של Superchip ל-GPU: כפי שהוזכר, Blackwell הוא ה-GPU הראשון של NVIDIA שנבנה כשבב כפול "סופרשבב". תכנון זה מאפשר מקביליות וצפיפות חישוב חסרי תקדים במאיץ יחיד. Blackwell אחד נותן פי 5 ביצועים של AI לעומת H100 בזכות הגודל הפיזי והליבות החדשות cudocompute.com cudocompute.com. הוא תומך בזיכרון מודולרי ענק לעומת דורות קודמים (כמעט 200GB ל-GPU) – קריטי למודלים הענקיים של ימינו.
- דור שני של Transformer Engine: ל-Blackwell מנוע Transformer משופר (TE) לזרוז חישובים של AI ובעיקר עבור מודלים מבוססי Transformer כמו LLM. המנוע כולל תמיכה בFP4 – נקודה צפה 4 ביט וטכניקות "סקיילינג מיקרו-טנזור" כדי לשמר דיוק בדיוקים כה נמוכים nvidia.com nvidianews.nvidia.com. המשמעות היא ש-Blackwell יכולה להכפיל תפוקה וגודל מודל ל-AI inference ע"י שימוש במשקלים/אקטיבציות 4 ביט כאשר רלוונטי, כמעט ללא פגיעה בדיוק. ה-Tensor Cores החדשים מספקים כפי 1.5 FLOPS AI לעומת הדור הקודם, עם חומרה ייעודית ל2× האצה לשכבות Attention של Transformer, שהן צוואר בקבוק ב-LLM nvidia.com. ביחד עם תוכנה של NVIDIA (TensorRT-LLM, NeMo), מתקבלת הפחתה פי 25 בזמן תגובה ובאנרגיה עבור LLM לעומת Hopper nvidianews.nvidia.com nvidianews.nvidia.com. בפועל, Blackwell מסוגלת להפעיל מודלים בגודל טריליון פרמטרים בזמן אמת – יכולת שהייתה מחוץ להישג יד של ה-GPU-ים הקודמים nvidianews.nvidia.com.
- דור חמישי של ממשק NVLink: כדי לאפשר עבודה בקנה מידה של יותר מ-GPU ענק אחד, Blackwell מכניסה את NVLink 5, הדור הבא של קישוריות GPU של NVIDIA. NVLink 5 מספק 1.8 טרה-בייט/שנייה לכל GPU, זינוק שמאפשר לחבר עד 576 GPU-ים בקלסטר יחיד עם תקשורת מהירה בין כולם nvidia.com nvidianews.nvidia.com. כאשר בדור Hopper ניתן היה לחבר ~18 GPUs לשרת, ה-NVLink Switch החדש נותן ליצר NVL72 – דומיין של 72 GPU שמתנהגים כמאיץ עצום אחד nvidia.com nvidia.com. ה-NVLink Switch נותן רוחב פס מצרפי של 130 טרה-בייט/שנייה ב-72 GPU nvidia.com. זה קריטי לאימון מודלים של AI בקנה מידה של טריליוני פרמטרים, שדורשים עשרות או מאות GPU פועלים יחד. ה-NVLink החדש תומך גם בפרוטוקול ה-SHARP להאצה וחסכון תקשורתית של אופרטורים קיבוציים (all-reduce וכד') בחומרה ובדיוק FP8, לשיפור יעילות השרתים nvidia.com cudocompute.com.
- מערכת Reliability, Availability, Serviceability (RAS): מכיוון שמערכות מבוססות Blackwell יריצו עומסי עבודה של AI ענקיים ברציפות למשך שבועות או חודשים, הוסיפה NVIDIA חומרה ייעודית לאמינות. כל GPU כולל מנוע RAS ייעודי שמנטר אלפי פרמטרים לאיתור תקלות או ירידה בביצועים מוקדם nvidia.com nvidia.com. מנוע זה עושה שימוש בבינה מלאכותית לחיזוי תקלות, ומסוגל לסמן רכיבים הדורשים טיפול, ובכך למזער הפתעות ונפילות. הוא מספק דיאגנוסטיקה מפורטת ומסייע בתיאום תחזוקה – קריטי כאשר ה-AI יוצא מגבולות ל-"מפעלי בינה מלאכותית" עם עשרות אלפי GPU nvidia.com nvidia.com.
- עיבוד AI מאובטח: Blackwell הוא ה-GPU הראשון עם יכולות Confidential Computing מובנות. הוא מספק סביבת הפעלה מאובטחת עם הצפנת זיכרון ובידוד (TEE-I/O), כך שניתן לעבד נתונים ומודלים רגישים בזיכרון ה-GPU ללא חשש לחשיפה nvidia.com. מעניין לציין שיכולות ההצפנה של Blackwell מוסיפות כמעט אפס תקורה בביצועים, עם מהירות הדומה למצב רגיל nvidia.com. זה מתאים במיוחד לתחומים רגישים כמו בריאות או פיננסיים, שבהם כעת אפשר להריץ עומסי AI בתשתית משותפת תוך הבטחת שמירת סודיות המידע nvidianews.nvidia.com. החל מניתוח הדמיות רפואיות מאובטח ועד אימון רב צדדי על דאטה פרטי, Blackwell פותח אפשרויות חדשות הודות להסרת מחסומי אבטחה.
- האצה ודקומפרסיה של מידע: כדי להאכיל את מנועי המחשוב החזקים שלו, Blackwell מוסיף מנוע דקומפרסיה שמבצע פירוק דחיסה ישירות ב-GPU nvidia.com nvidia.com. לעיתים קרובות קווי ניתוח נתונים דוחסים דאטה (למשל בעזרת LZ4, Snappy) – Blackwell מסוגל לשחרר דחיסה בשקיפות ובמהירות, ולחסוך עומס מהמעבד. כמו כן, עם Grace CPU של NVIDIA ניתן לגשת ישירות לזיכרון מערכת במהירות 900GB/s דרך NVLink-C2C, מה שמאפשר הזרמת דאטה בקנה מידה ענק nvidia.com nvidia.com. יחד, מאיצים אלה עומסי ETL, אנליטיקות SQL, ומערכות המלצה. NVIDIA צופה שבעתיד הקרוב, נתח גדול מעשרות מיליארדי הדולרים בעיבוד נתונים יעבור להאצה על ידי GPU nvidianews.nvidia.com.
מדדי ביצועים: בזכות החדשנויות הללו, Blackwell מציע קפיצה בין דורית אדירה. בסט דיוק דומה, GPU מתקדם מדגם B100 נותן פי 5 מהירות אימון AI לעומת H100 ופי 25 לעומת דור Ampere A100 הישן cudocompute.com nvidianews.nvidia.com. לדוגמה, Blackwell מסוגל לספק עד 20 פטה-FLOPS ב-AI ב-FP8/FP6 לעומת ~8 PFLOPS ב-H100 cudocompute.com. אפילו יותר מרשים: עם FP4 מגיע ל-40 PFLOPS, פי חמישה מהיכולת FP8 של Hopper cudocompute.com. המשמעות המעשית: משימות כמו inference של GPT-3 (175 מיליארד פרמטרים) שלקחו שניות על H100 ירוצו בשבריר שנייה על Blackwell. NVIDIA חשפה ש-Blackwell מאפשר inference בזמן אמת במודלים פי 10 גדולים יותר מבעבר nvidianews.nvidia.com. בדיקות מוקדמות בתעשייה מאשרות זאת – במבחני MLPerf inference, מערכות עם Blackwell עקפו כל מתחרה, כאשר גם המאיצים המובילים של AMD מסדרה MI300 הצליחו רק להשוות ביצועי H100/H200 למודלים קטנים יותר spectrum.ieee.org. במבחן Llama-70B, מערכות מבוססות Blackwell הגיעו ל-פי 30 תפוקה מאותו מספר GPU של H100, עם ירידה חדה בצריכת אנרגיה nvidianews.nvidia.com.
ראוי לציין כי השגת השיפורים האלו בפועל תלויה באופטימיזציה של התוכנה. הגישה ההוליסטית של NVIDIA – מהספריות CUDA ועד לקומפיילר TensorRT-LLM החדש – מסייעת לאפליקציות לנצל בקלות את היתרונות של Blackwell. לדוגמה, אוטומציה של שינויי דיוק במהירות ב-Transformer Engine מאפשרת למשתמשים להרוויח מהאצת FP4 עם שינויים מינימליים בקוד nvidia.com. השילוב ההדוק הזה בין חומרה לתוכנה הוא יתרון מפתח עבור NVIDIA. לעומת זאת, למתחרים לעיתים קרובות יש קושי בבשלות התוכנה; אנליסטים בתעשייה מציינים שלמרות שמערכות החומרה של AMD מדגמי MI300 “משיגים את הפער” מול NVIDIA, המערכת האקולוגית של התוכנה שלהם עדיין מפגרת אחרי CUDA בנוחות השימוש ובאופטימיזציה research.aimultiple.com research.aimultiple.com.חדשנויות בהשוואה ל-Hopper ו-Ampere
Blackwell מציג מספר התקדמויות ארכיטקטוניות משמעותיות לעומת הדורות הקודמים של כרטיסי המסך של NVIDIA:
- תכנון Multi-Chip Module (MCM): דגמי Hopper (H100) ו-Ampere (A100) היו שבבים מונוליטיים על פרוסה בודדת. Blackwell הוא הניסיון הראשון של NVIDIA עם GPU בתצורת MCM – בעצם שני שבבים באחד. זה מאפשר תקציב טרנזיסטורים עצום בהרבה (208 מיליארד מול 80 מיליארד) וזיכרון גבוה במיוחד (עד 192GB לעומת 80GB) cudocompute.com cudocompute.com. מתחרים כמו AMD חלוצות ב-MCM עם סדרות MI200/MI300, אבל היישום של NVIDIA מאחד את שני השבבים לחלל כתובת GPU אחד cudocompute.com, מה שמקל על מתכנתים. הגישה הזו גם משפרת את התפוקה במפעל (פרוסות קטנות קלות יותר לייצור) וסקלאביליות לעיצובים עתידיים.
- ליבות Tensor משופרות ודיוק FP4: בעוד Ampere הוסיף ליבות Tensor ו-Hopper הוסיף תמיכה ב-FP8 דרך Transformer Engine מהדור הראשון, Blackwell מעלה את הרף עם תמיכה טבעית בדיוק 4 ביט nvidia.com. הוא מוסיף ליבות Tensor "Ultra" שמטפלות באופרציות מטריצה על FP4 ובאלגוריתמים חדשים לשימור דיוק ב-4 ביט nvidia.com. זה משמעותי כיוון שרבות ממשימות ה-AI עבור אינפרנס סובלות דיוק נמוך יותר, ולכן FP4 יכול להכפיל תפוקה לעומת FP8. ליבות ה-Tensor של Blackwell מותאמות טוב יותר לדילול ותבניות attention, מה שנפוץ בטרנספורמרים, היכן של-Ampere/Hopper הייתה ארכיטקטורה כללית יותר. התוצאה היא קפיצה גדולה בביצועים בדגמים טרנספורמרים (פי 2 מהירות attention ב-Blackwell) nvidia.com.
- זיכרון וקישוריות: Blackwell עושה שימוש בזיכרון HBM3e עם קיבולת ורוחב פס גבוהים במיוחד. ל-Hopper H100 היו 80GB HBM (3TB/s); ל-Blackwell B100 יש עד ~192GB HBM וסביבות 8TB/s cudocompute.com. בנוסף, NVLink 5 ב-Blackwell משפר מאוד את ההרחבה למספר כרטיסי GPU, כפי שתואר קודם. Hopper היה מסוגל לחבר ישירות עד 8 GPU ב-node (עם קישורים של ~0.6TB/s לכרטיס); Blackwell מסוגל לחבר 72 ומעלה, עם רוחב פס הרבה יותר גבוה nvidia.com nvidianews.nvidia.com. הדבר מאפשר הגדלה ליניארית לאימון מבוזר המתבצע כיום בעשרות GPU, תוך הפחתת תקשורת איטית.
- מחשוב מאובטח ו-RAS: ארכיטקטורות קודמות כללו רק אבטחה חלקית (למשל Hopper הכניס קפסולציה מוצפנת למחיצות GPU מרובות). Blackwell הוא הראשון שמאפשר אבטחת מחשוב מלאה ברמת ה-GPU תוך כדי הצפנת נתונים בשימוש nvidia.com. זה גם ה-GPU הראשון של NVIDIA עם ליבת RAS ייעודית לאחזקה מונעת nvidia.com. תכונות אלו משקפות התבגרות טכנולוגיית ה-GPU לסביבה אנטרפרייזית ועננית קריטית, שם פעילות בלתי פוסקת ופרטיות מידע חשובות לא פחות מהמהירות הגולמית. ל-Ampere ו-Hopper לא הייתה טלמטריה והצפנה מובנית כזו למשימות AI.
- מנועי עיבוד נתונים חדשים: מנוע דחיסת נתונים ב-Blackwell הוא חידוש – ב-GPU קודמים טעינת הנתונים בוצעה במעבדי CPU או DPU. בהאצת משימות כמו ניתוח JSON או פענוח נתונים דחוסים על כרטיס המסך, Blackwell משפר שרשראות נתונים מקצה לקצה, לא רק מתמטיקה של רשתות עצביות nvidia.com. זה מרחיב את תפקיד ה-GPU: ממאיץ חישובים ללמידת מכונה בלבד, לסוס עבודה כללי של עיבוד נתונים לאנליטיקה ו-ETL. זהו פוקוס על המגמות התעשייתיות שבהן AI ובינה עסקית הולכים ומתמזגים.
לסיכום, שיפורי Blackwell לעומת Hopper/Ampere מתבטאים בחמישה תחומים עיקריים: (1) חישוב (יותר TFLOPS הודות להיקף גדול ו-FP4), (2) זיכרון (נפח/רוחב פס גבוהים), (3) קישוריות (אשכולות NVLink), (4) שרידות/אבטחה (מנוע RAS, הצפנה), ו-(5) עיבוד נתונים (מנועי דחיסה). השדרוגים האלו הופכים את Blackwell למתאים בהרבה להתמודד עם AI בקנה מידה גדול בהשוואה לדורות קודמים.
מענה לדרישות אימון ואינפרנס AI בקנה מידה ענק
מודלי ה-AI המתקדמים של ימינו – בין אם אלו מודלים לשוניים בני מיליארדי פרמטרים, transformers ויזואליים מורכבים או מערכות המלצה שמעבדות פטאבייטים של נתונים – דורשים עוצמה וזיכרון עצומים. Blackwell פותח במיוחד כדי לעמוד באתגרים הללו:
- היקף מודלים חסר תקדים: כפי שצויין, כרטיס מסך בודד מדגם Blackwell מסוגל להכיל מודלים בקנה מידה של 0.5–0.7 טריליון פרמטרים בזיכרון cudocompute.com. ואם זה לא מספיק, מערכות מבוססות Blackwell יכולות להתרחב למאות GPU עם חיבורים מהירים, דבר שמאפשר אימון של מודלים עם עשרות טריליוני פרמטרים ע"י פיזור שלהם על פני מספר רב של GPU nvidianews.nvidia.com nvidia.com. לדוג', DGX SuperPOD של NVIDIA עם Blackwell מחבר 576 GPU, מספק ~1.4 ExaFLOPs של ביצועי AI ו-30TB של זיכרון HBM אחוד nvidianews.nvidia.com nvidianews.nvidia.com. זה מה שמאפשר חקר של GPT-4 ומעבר לו, שם גודל המודל עלול להגיע לתחום הרב-טריליון. בקיצור, Blackwell פותר את אתגר הסקייל ע"י כוח גולמי – שבבים רחבים ויותר מהם מחוברים ללא הפרעה.
- תפוקה גבוהה יותר, השהייה נמוכה יותר: עבור אינפרנס של AI, במיוחד באפליקציות אינטראקטיביות (צ'אטבוטים, ראייה בזמן אמת וכו'), השהיה ועלות הם קריטיים. האופטימיזציה לטרנספורמרים ודיוק FP4 ב-Blackwell מכוונים באופן ישיר ליעילות אינפרנס, ומספקים עד פי 25 פחות השהייה וצריכת אנרגיה פר שאילתה במודלים לשוניים לעומת הדור הקודם nvidianews.nvidia.com. בפועל, זה אומר ששאילתה למודל עם טריליון פרמטרים שבעבר נזקקה לאשכול GPU גדול – תוכל כעת להיעשות ע"י אשכול Blackwell קטן, במהירות ובעלות נמוכה יותר. חברות כמו OpenAI ו-Meta צופות להפעיל את Blackwell לאספקת LLM למשתמשים בקנה מידה ענק, שם כל הפחתה בעלות לאינפרנס משמעותית nvidianews.nvidia.com nvidianews.nvidia.com.
- יעילות עלות באימון: אימון מודל חדשני עלול להגיע לעשרות מיליוני דולרים בעלות חישוב. Blackwell שואף להקטין זאת ע"י זמני אימון קצרים יותר וניצול טוב יותר של הצמתים. יותר FLOPS ורשת מהירה משמעותם שאשכול Blackwell יוכל לאמן מודל בזמן קצר בהרבה (או להשיג דיוק גבוה יותר באותו זמן). ל-NVIDIA טענות שעם Blackwell ניתן לאמן LLM גדול בפי 25 פחות אנרגיה מאשר על Hopper nvidianews.nvidia.com. זה לא רק בזכות השדרוגים בחומרה, אלא בגלל התקדמות התוכנה (לדוג', קומפיילרים תואמי Blackwell וסכמות precision משולבות). מחזורי אימון מהירים יותר מאפשרים לחוקרים לנסות רעיונות ולהגיע מהר יותר לפריצות דרך.
- קיבולת זיכרון לאצוות ודאטהסטים ענקיים: הזיכרון המורחב של Blackwell הוא יתרון גם לאימון וגם לאינפרנס. לאימון, זה מאפשר גודל אצווה גדול או רצפים ארוכים יותר, מה שמייעל את תהליך הלמידה ואת איכות המודל. באינפרנס, ניתן לטעון את כל המודל או קונטקסטים ארוכים (חשוב ל-LLM שזקוקים לפרומפטים ארוכים) על GPU יחיד, ובכך להימנע מהחלפה איטית לזיכרון CPU. בנוסף, עם Grace CPU link (900GB/s), אפשר לפרוק מידע נוסף לזיכרון CPU כמעט בלי קנס nvidia.com. זה יוצר היררכיית זיכרון מושלמת למידול ענק ולדאטהסטים גרפיים.
- אמינות תמידית: בסביבות אנטרפרייז וענן, משימות AI פועלות לעיתים קרובות ללא הפסקה. התכונות לאמינות של Blackwell (מנוע RAS) מאפשרות להריץ עומסי עבודה כאלה כמעט בלי הפרעות – איתור אוטומטי של בעיות כמו שגיאות זיכרון, תקלות קישור או חריגות תרמיות ודיווח מהיר לאחראים nvidia.com nvidia.com. זה עונה על דרישה פרקטית: כאשר חברות מכניסות AI לפרודקשן (למשל המלצות חיים או בקרים אוטונומיים), הן צריכות שהחומרה תהיה אמינה כמו שרת IT רגיל. Blackwell מתקדם לשם בהטמעת יכולות שלא נראו עד כה אלא במעבדים ומשאבים קריטיים.
לסיכום, Blackwell מכוון בדיוק לדרישות של “מפעלי AI” – תשתית AI בקנה מידה עצום המניעה הכל ממעבדות מחקר ועד שירותי ענן nvidianews.nvidia.com. הוא מספק את הסקייל, מהירות, יעילות ואמינות הדרושים בזמן שמודלי ה-AI והדאטהסטים ממשיכים לגדול בקצב מעריכי.
שימושים ויישומים במגוון תעשיות
Blackwell של NVIDIA לא נועד רק לדחוף גבולות ביצועים – הוא בנוי כדי לאפשר יישומים חדשים של בינה מלאכותית במגוון תחומים. כאן נבחן כיצד ה-GPU מסדרת Blackwell צפויים להשפיע על מספר תחומים מרכזיים:
בינה מלאכותית גנרטיבית ומודלים לשוניים גדולים (LLMs)
העלייה של AI גנרטיבי (כמו GPT-3, GPT-4 ועוד) היא גורם מרכזי בפיתוח Blackwell. כרטיסי מסך Blackwell מצטיינים הן באימון והן בפריסת מודלים לשוניים גדולים:
- אימון מודלים ענקיים: מעבדות מחקר וחברות כמו OpenAI, Google DeepMind ו-Meta מאמנות מודלים לשוניים גדולים והולכים. Blackwell מאפשר אימונים שבעבר היו בלתי ישימים. עם יכולת ההרחבה הרב-GPU והמעבר המהיר יותר, ניתן לאמן מודלים עם טריליוני פרמטרים או לאמן מודלים עם יותר מ-100 מיליארד פרמטרים במהירות גבוהה משמעותית. למעשה, מנכ"ל Meta ציין כי הם “מצפים להשתמש ב-NVIDIA Blackwell כדי לעזור לאמן את מודלי Llama בקוד פתוח שלנו ולבנות את הדור הבא של Meta AI” nvidianews.nvidia.com. מחזורי פיתוח מהירים מאפשרים ניסוי וטעייה רב יותר ובכך פריצות דרך אפשריות ביכולות המודלים. בנוסף, מנוע ה-Transformer של Blackwell מותאם במיוחד למודלים בעלי סגנון זה, מה שמעלה את ניצול החומרה ומפחית בעלות להשגת דיוק רצוי.
- הרחבת שירותי הסקת LLM: פריסת שירות מבוסס LLM (למשל, צ'ט-בוט המשרת מיליוני משתמשים) היא יקרה מאוד חישובית. Blackwell מפחית משמעותית את כמות החומרה הנדרשת לשירות בעומס מסוים. ג'נסן הואנג הצהיר כי Blackwell “מאפשר לארגונים להפעיל AI גנרטיבי בזמן אמת על מודלים עם טריליוני פרמטרים בעלות נמוכה עד פי 25” מאשר בעבר nvidianews.nvidia.com. עבור ספקי ענן, זה אומר שהם יכולים להציע כלכלית שירותי GPT ללקוחות. הדבר גם פותח דלת ליישומים בזמן אמת – למשל, עוזרים המסוגלים לסנן מסמכים ענקיים או לענות על שאלות מורכבות מאוד מיידית, הודות לזמן ההשהיה הנמוך של Blackwell. מנכ"ל גוגל, סונדר פיצ'אי, הדגיש כיצד גוגל מתכננת להפעיל GPUs מסדרת Blackwell בענן Google Cloud וב-Google DeepMind על מנת “להאיץ תגליות עתידיות” ולשרת יעיל יותר את מוצרי ה-AI של החברה nvidianews.nvidia.com.
- מודלים מבוססי "תערובת מומחים" (Mixture-of-Experts, MoE): ארכיטקטורת Blackwell (זיכרון ענק + קישור-על מהיר) מועילה גם למודלים מסוג זה, אשר מנתבים קלטים לתת-מודלים/מומחים שונים. מודלים אלה יכולים להגיע לטריליוני פרמטרים, אך זקוקים לתקשורת מהירה בין המומחים (לעיתים קרובות על פני GPU שונים). NVLink Switch וזיכרון ה-GPU הגדול מסייעים לשמור על יעילות מודלים כאלה, וייתכן דבר זה יאפשר גל חדש של מודלים מרובי-מומחים שהיו מוגבלים על ידי רוחב הפס בחומרה קודמת nvidia.com cudocompute.com.
רובוטיקה ורכבים אוטונומיים
חומרת AI הופכת להיות קריטית לרובוטיקה – הן לצורכי אימון רובוטים בסימולציה והן ככוח המניע את המוח של הרובוטים/רכבים:
- מחקר רובוטיקה וסימולציה: אימון מדיניות שליטה ברובוטים (למשל ברחפנים, רובוטים תעשייתיים) עושה שימוש נרחב בסביבות סימולציה ענקיות ולמידת חיזוק, שדורשות כוח GPU רב. Blackwell יכול להאיץ סימולציות פיזיקליות (Omniverse, Isaac Sim וכו') ואימון של רשתות שליטה. NVIDIA דיווחה שמערכות Grace+Blackwell הגיעו למהירויות סימולציה גבוהות פי 22 עבור דינמיקה בהשוואה לסביבות מבוססות CPU cudocompute.com. משמעות הדבר התפתחות מהירה יותר של תכנון תנועת רובוטים, טווינים דיגיטליים משופרים למפעלים, ואימון זול יותר למשימות רובוטיקה מורכבות. חוקרים יכולים להריץ סימולציות עשירות יותר על Blackwell בודד מאשר בעבר, ובכך להביא לאימון טוב יותר של רובוטים.
- רכבים אוטונומיים (AV) – פלטפורמת Drive Thor: מחשב ה-AI של NVIDIA לרכב, DRIVE Thor, יבנה על ארכיטקטורת ה-GPU של Blackwell nvidianews.nvidia.com. פלטפורמה זו מיועדת לרכבים אוטונומיים מהדור הבא, רובוטקסי ומשאיות. החוזקות של Blackwell ב-transformers והסקת AI מתאימות לטרנדים החדשים בתוכנות AV – לדוג' שימוש במודלים מבוססי transformers לתפיסה או מודלים לשוניים גדולים כעוזרי קבינה. DRIVE Thor עם Blackwell מסוגל לספק עד פי 20 ביצועים לעומת פלטפורמת Orin הנוכחית (הייתה מבוססת Ampere) ולרכז עיבוד וידאו, מכ"ם, לידאר ואפילו AI בידור לרכב במחשב יחיד medium.com. יצרני רכב מובילים וחברות AV (BYD, XPENG, וולבו, Nuro, Waabi ואחרים) כבר הכריזו על אימוץ DRIVE Thor ברכבים שישוחררו בשנים 2025 ואילך nvidianews.nvidia.com nvidianews.nvidia.com. פלטפורמה זו תאפשר פיצ'רים של אוטונומיה רמה 4, סיוע נהג מתקדם מאוד ואפילו AI גנרטיבי ברכב (למשל עוזרי קול או בידור נוסעים). למעשה, Blackwell ברכב מעניק את עוצמת ה-AI הנדרשת לניתוח המוני חיישנים בזמן אמת ולקבלת החלטות נהיגה עם מרווח בטיחות דרוש.
- רובוטים תעשייתיים ורובוטי בריאות: Blackwell משולב גם ברובוטים מתקדמים בתעשייה ובריאות. לדוג', בתערוכת GTC 2025 בטייוואן הציגו מפתחים רובוטים רפואיים מבוססי AI המשתמשים ב-GPU מסדרת Blackwell לעיבוד הבינה המלאכותית שלהם worldbusinessoutlook.com. ביניהם רובוטים ניידים אוטונומיים לבתי חולים ועוזרים דמויי אדם היכולים לתקשר עם מטופלים. כל רובוט השתמש ב-GPU מסדרת Blackwell עם מודל לשוני גדול (כגון “Llama 4”) ועם NVIDIA Riva לעיבוד דיבור, כדי לאפשר תקשורת טבעית worldbusinessoutlook.com. כרטיס ה-Blackwell מספק כוח עיבוד לכל המשימות: הבנת דיבור, ריצה של מודל לשוני להסקה ושליטה בזמן אמת על פעולות הרובוט. ניסויים בבתי חולים הצביעו על שיפור בשירות לחולים והפחתת עומס עבודה על הצוות worldbusinessoutlook.com worldbusinessoutlook.com. בתחום הייצור ניתן לדמיין מערכות רובוטיות מתקדמות מבוססות Blackwell המבצעות בדיקות ויזואליות מורכבות או ניהול צי רובוטים בלוגיסטיקה עם אלגוריתמי תכנון ברמת AI. הביצועים המוגברים מאפשרים לפרוס מודלים חכמים ומתקדמים יותר ברובוטים, ולהפוך אותם לעצמאיים ואינטליגנטיים יותר.
שירותי AI במרכז נתונים וספקי ענן
הודות להיקפה, סדרת Blackwell מיועדת בראש ובראשונה למרכזי נתונים, שם היא תניע גם שירותי ענן ציבוריים וגם תשתיות AI ארגוניות פרטיות:
- מחשוב AI בענן: כל ספקיות הענן הגדולות – Amazon AWS, Google Cloud, Microsoft Azure ו-Oracle – הכריזו על השקתם הקרובה של שירותי GPU בענן מבוססי Blackwell nvidianews.nvidia.com. המשמעות: סטארטאפים וחברות יכולים לשכור את Blackwell לפי דרישה, לאימון מודלים או להרצת יישומי AI. ספקי הענן משתפים פעולה ישירות עם NVIDIA לטובת מערכות ייעודיות; AWS חשפה פרויקט משותף “Project Ceiba” לשילוב Grace-Blackwell עם רשתות AWS עבור מו"פ פנימי של NVIDIA nvidianews.nvidia.com. נגישות Blackwell בענן מאפשרת גם לחברות קטנות או קבוצות מחקר להשתמש בחומרה המתקדמת ביותר – ובכך מייצרת דמוקרטיזציה מסוימת באימון מודלים ענקיים והפעלת AI בסקייל.
- “מפעלי AI” ארגוניים: ארגונים רבים בונים כיום מרכזי נתונים ייעודיים ל-AI (ש-NVIDIA כינתה AI factories) כדי לפתח ולפרוס מודלי AI לעסק שלהם. ההשקה של Blackwell כוללת תצורות ייחוס כמו שרתי MGX ו-DGX SuperPOD של NVIDIA, שמקלים על הקמת אשכולות Blackwell לארגונים nvidianews.nvidia.com. לדוגמה, Dell, HPE, Lenovo ו-Supermicro מציעות שרתים עם לוחות Blackwell HGX (8× B200 GPU לכל לוח) nvidianews.nvidia.com nvidianews.nvidia.com. ארגון יוכל להפעיל כאלה לצורכי אנליטיקה פנימית או שירותי AI ללקוחות. נקודה חשובה: היעילות האנרגטית – Blackwell מפחיתה את העלות לאימון או הסקה ולכן הופכת יישומי AI למשתלמים הרבה יותר. ג'נסן הואנג טוען שבזכות Blackwell התעשייה “עוברת למפעלי AI מואצי-GPU” כסטנדרט החדש של תשתיות IT research.aimultiple.com research.aimultiple.com. ניתן לראות דברים אלה בשיתופי פעולה כמו זה של NVIDIA עם חברת התרופות Lilly לאימון AI לעולם הרפואה באתר הלקוח, ובשיתוף עם Foxconn לייצור חכם – כולם מתבססים על מערכות Blackwell research.aimultiple.com.
- אנליטיקה, מחשוב עתיר ביצועים (HPC) ומדעים: לא רק רשתות נוירונים – Blackwell משמש גם להאצת מחשוב מסורתי עתיר ביצועים (HPC) וניתוח נתונים. ההודעה הרשמית מציינת שימושים כגון סימולציה הנדסית, תכנון שבבים (EDA) ואפילו חקר מחשוב קוונטי שנהנים מיכולות Blackwell nvidianews.nvidia.com. ספקיות התוכנה Ansys, Cadence ו-Synopsys (חשובות לסימולציה ותכנון שבבים) אופטימיזו את הכלים שלהן ל-GPU של Blackwell nvidianews.nvidia.com. לדוג', סימולציה מבנית שארכה שעות על אשכולות CPU יכולה לרוץ הרבה יותר מהר על כרטיסי המסך של Blackwell. גם ברפואה: “תכנון תרופות מבוסס מחשב” יכול להיערך על GPU של Blackwell, לסרוק חומרים או לסמלץ אינטראקציות חלבון ביעילות גבוהה nvidianews.nvidia.com. מרכזים רפואיים מובילים ומעבדות מחקר מפעילים גם אוטומציה של גנומיקה ודימות רפואי ב-GPU; ל-Blackwell יתרון עם נפח זיכרון גדול (יעיל לגנומיקה) ואבטחת מידע (חיוני לפרטיות חולים) nvidianews.nvidia.com. בשורה התחתונה – Blackwell הוא מאיץ כללי במרכז הנתונים: לא רק למודלי AI, אלא גם לכל עומסי עבודה מקביליים – מדאטה ביג ועד מחקר מדעי.
בריאות ומדעי החיים
המגזר הרפואי צפוי להרוויח משמעותית מ-AI המבוסס Blackwell בשל הצורך שלו לעבד מאגרי מידע ענקיים ורגישים:
- הדמיה רפואית ואבחון: רשתות נוירונים משמשות כיום לגילוי מחלות בהדמיות כמו MRI, CT וצילומי רנטגן. מודלים אלו (למשל, זיהוי גידולים) דורשים לרוב רזולוציה גבוהה במיוחד ונפחי מידע תלת־ממדיים עצומים. הזיכרון והעיבוד של Blackwell מאפשרים ניתוח סריקות גוף מלא או שקופיות פתולוגיה ברזולוציה גבוהה במהלך אחד – משימה שהייתה קשה עם כרטיסי GPU קטנים יותר. בנוסף, תכונת החישוב החסוי מאפשרת לבתי חולים להריץ את הניתוחים על שרתי ענן משותפים ללא חשש לדליפת מידע רפואי של מטופלים nvidia.com nvidianews.nvidia.com. כך ניתן להאיץ הטמעה של כלי בינה מלאכותית לאבחון, לרבות במצבים שבהם מספר בתי חולים חולקים אותה סביבת ענן – כל מוסד שומר על פרטיות המידע המקומי שלו באמצעות הצפנה.
- גנומיקה וגילוי תרופות: נתוני רצף גנטי וסימולציות מולקולריות יוצרים ערימות דאטה עצומות. מנגנון הדחיסה והסינרגיה עם זיכרון ה־Grace CPU ב־Blackwell מאיצים תהליכי עיבוד גנומיים (למשל: דחיסת נתונים בזיכרון ה־CPU והזרמת המידע ל־GPU ליישור רצפים או איתור ווריאנטים). NVIDIA דיווחה כי מאגרי מידע וניתוחים בסביבות Spark זוכים לשיפורים ענקיים – לדוגמה, Blackwell עם Grace CPU השיג האצה פי 18 בעיבוד בסיסי נתונים בהשוואה למערכות מבוססות CPU בלבד cudocompute.com cudocompute.com. עבור חברות פארמה המבצעות סריקות וירטואליות של מיליארדי חומרים, Blackwell יכולה לקצר דרמטית את משך הסינון – למעשה, סופר־מחשב לגילוי תרופות בגודל של קופסה.
- בינה מלאכותית בתהליכי עבודה קליניים: הדוגמה הקודמת של רובוטים רפואיים בבית החולים החכם Mackay Memorial בטאיוואן ממחישה כיצד Blackwell מאפשרת יישומים קליניים מתקדמים worldbusinessoutlook.com worldbusinessoutlook.com. הרובוטים משתמשים ב־GPU מסוג Blackwell באתר, כדי להבין דיבור, לשלוף מידע רפואי ולנוע בתוך בית החולים. בפריסה רחבה, בתי החולים יוכלו להשתמש בשרתי Blackwell כמרכזי בינה מלאכותית: ניבוי החמרה אצל מאושפזים (באמצעות מודלים זמניים גדולים על סיגנלים חיוניים), אופטימיזציה של תפעול (ניהול מיטות בעזרת reinforcement learning) ועוד. תכונות ה־RAS של Blackwell מבטיחות פעולה רציפה ואמינה למערכות קריטיות 24/7, והמובלעות המאובטחות מגינות על פרטיות מידע רפואי בעת אימון מודלים על תיקים רפואיים רגישים. כמנהלת באותו פיילוט רובוטים אמרה: “שיתוף הפעולה הזה משפר את איכות השירות למטופלים ומייעל את תהליכי העבודה הפנימיים” worldbusinessoutlook.com – משפט שסביר שיוזכר שוב ושוב עם ההתפשטות של AI בבתי החולים.
השוואת Blackwell למאיצי בינה מלאכותית אחרים
בעוד ש־NVIDIA מובילה כיום את שוק מאיצי הבינה המלאכותית, Blackwell מתמודדת עם תחרות מצד חומרה אלטרנטיבית. כאן נשווה את Blackwell למתחרים מרכזיים:
AMD Instinct MI300 Series (והיורשים שלו)
סדרת Instinct של AMD היא המתחרה המרכזית ל־GPU של NVIDIA בתחום מרכזי הנתונים והבינה המלאכותית. הדגמים החדשים ביותר, MI300X ו־MI300A (מושתתים על ארכיטקטורת CDNA3 של AMD), חולקים מאפייני תכנון עם Blackwell – בעיקר, עיצוב מבוסס שבבים (chiplets) וזיכרון HBM. דגם MI300A הוא APU המאחד CPU ו־GPU במעבד אחד (בדומה לקונספט Grace+Blackwell של NVIDIA), בעוד MI300X הוא GPU בלבד עם 192GB של HBM3. בביצועים, AMD טוענת כי MI300X מסוגל להשתוות או לעקוף את Hopper (H100) של NVIDIA במשימות מסוימות של אינפרנס research.aimultiple.com research.aimultiple.com. ואכן, מדדי MLPerf הראו כי MI325 (גרסה של MI300) מפגין ביצועים דומים ל־H100 ("H200") של Nvidia באינפרנס למודלי Llama-70B spectrum.ieee.org. עם זאת, נראה כי Blackwell של NVIDIA עדיין מקדימה משמעותית בשוק הגבוה ביותר – ניתוח אחד ציין שאם מסתכלים רק על קצב throughput (טוקנים לשנייה בlatency נמוך) – “NVIDIA Blackwell בליגה משלה” בקרב מאיצי 2024–2025 ai-stack.ai. לפי סימנים מוקדמים, B100 עוקפת את MI300X בפער ניכר (לעיתים פי 2–3 בתפוקה של transformer), אמנם יחד עם צריכת חשמל גבוהה במיוחד.
יתרון בולט אחד ש־AMD מדגישה הוא עלות־תועלת ופתיחות. כרטיסי MI300 תומכים באלטרנטיבות לתשתיות התוכנה המקוריות דוגמת ROCm, ו־AMD פועלת בשיתוף עם קהילת הקוד הפתוח (לרבות עם Meta ו־Hugging Face) כדי לבצע אופטימיזציה של מודלים ל־GPU של AMD research.aimultiple.com. לספקיות ענן מסוימות וללקוחות בסין (שסובלים ממגבלות ייצוא NVIDIA research.aimultiple.com), חומרת AMD היא אופציה אטרקטיבית נוספת. הבעיה של AMD היא האקו־סיסטם התוכנתי – CUDA והספריות של NVIDIA עדיפות עדיין ברוב השימושים. מתחים פומביים נרשמו כש־NVIDIA ו־AMD השוו זה את זה ב־benchmarks: כוונון התוכנה עושה הבדל ענק, ורבים טוענים שהתשתית של NVIDIA מתקדמת יותר research.aimultiple.com research.aimultiple.com. לסיכום, סדרת MI300 של AMD מתחרה ב־דור הקודם של NVIDIA (Hopper), והדור הבא MI350 שיתמודד עם Blackwell/H200 research.aimultiple.com עשוי לצמצם את הפער. כרגע, ל־Blackwell עדיין יתרון ביצועים משמעותי בפרויקטים בקנה מידה ענק ובמודלים הגדולים ביותר.
Intel (Habana Gaudi ו־“Falcon Shores” שבדרך)
המאמצים של אינטל במאיצי בינה מלאכותית פועלים בשני מסלולים: סדרת Habana Gaudi שנרכשה לטובת אימוני בינה מלאכותית, וארכיטקטורת ה־GPU הפנימית (Xe HPC). המאיץ Gaudi2 (הושק ב־2022) היווה אלטרנטיבה ל־A100 של NVIDIA לאימון, עם ביצועים מרשימים ב־ResNet ו־BERT ובמחיר נמוך יותר. אבל Gaudi2 התקשה לפרוץ בשוק התוכנה, ו־Gaudi3 שהוכרז לאחרונה זכה לציפיות מסחריות מתונות בלבד (~500 מיליון דולר ב־2024) research.aimultiple.com research.aimultiple.com. באחרונה אינטל פתחה במהלך אסטרטגי חדש – פרויקט Falcon Shores המדובר, שנועד להיות XPU המשלב CPU ו־GPU ותוכנן להתחרות ב־Grace Hopper, נדחה והוגבל. אינטל “de-XPUed” את Falcon Shores לעיצוב של GPU בלבד, ומתכננת אותו לשנת 2025 hpcwire.com hpcwire.com. דו"חות אף מדווחים שאינטל עשויה לבטל או לשנות בחדות את התוכניות לטובת נישות מסוימות כמו מאיצי אינפרנס, שם יש לה יתרון יחסי crn.com bloomberg.com.
כעת, המוצר הממשי ביותר של אינטל בגזרה זו הוא Ponte Vecchio / Max Series GPU, שמופעל במחשב־על Aurora. Ponte Vecchio הוא GPU מורכב בעל 47 שבבים (tiles) שהתעכב שנים, וגרסאות המשך שלו (Rialto Bridge) בוטלו. ה־GPU של Aurora מציע ביצועי חישוב מתקדמים (FP64) בתחום HPC, אך בתחום הבינה המלאכותית הוא דומה לכרטיסי A100/H100 ברוב המשימות. האתגר של אינטל טמון ביכולת ביצוע ובהיקף – אמנם הפוטנציאל האדריכלי גבוה, אבל ההגעה לשוק בזמן עם דרייברים אמינים הייתה קשה פעם אחר פעם.
בהשוואה ישירה, Blackwell מול Intel: נכון לעכשיו, אין לאינטל מוצר שמאתגר ישירות את השילוב של Blackwell בין ביצועי אימון לאקוסיסטם. נראה שאסטרטגיית אינטל נעה לכיוון ניצול המעבדים שלה (עם הרחבות AI) ואולי מאיצי Gaudi קטנים יותר עבור אינפרנס, במקום להילחם באשכולות האימון הגדולים ביותר. כפי שניסח זאת אנליסט HPC, נראה שאינטל “מעניקה לשוק אימוני ה-AI למתחרות מבוססות GPU” ומתמקדת בהצלחות קלות יותר hpcwire.com. המשמעות היא ש-Blackwell כנראה תשלוט בפלח האימון היוקרתי ללא תחרות מצד אינטל לפחות עד 2025/2026 כאשר/אם Falcon Shores תושק. גם אז, שמועות גורסות כי Falcon Shores תכוון לנישה מסוימת (אולי עיצוב עוצמתי במיוחד 1500W לעומסי עבודה מסוימים) reddit.com wccftech.com, כך שלא ברור אם תתחרה באמת במערכות DGX מבוססות Blackwell ליישומים כלליים. בשלב זה, אינטל נשארת במקום השלישי והרחק מאחור בתחום האצת AI, כשהיתרון שלה במעבדים עדיין רלוונטי (לדוג' מערכות AI רבות משתמשות כשרתים במעבדי Xeon של אינטל, ויש לה גם פקודות AI ייעודיות למעמסים קלים יותר).Google TPUs (Tensor Processing Units)
גוגל בחרה במסלול שונה עם TPU מתוצרתה – ASICs ייעודיים למשימות רשתות נוירונים (ובעיקר לתוכנה הביתית TensorFlow). הדור הציבורי העדכני הוא TPU v4 שגוגל פרסה במרכזי הנתונים שלה ומעמידה לשירותי Google Cloud. אשכולות TPUv4 (4096 שבבים) משיגים כ-1 אקסה-פלופ חישוב BF16 והם שימשו לאימון מודלים גדולים (כמו PaLM). למרות שמפרטים מדויקים חלקית קנייניים, TPUv4 דומה ל-A100/H100 של NVIDIA בביצועים. עם זאת, גוגל הכריזה לאחרונה על פלטפורמה מהדור הבא תחת שם קוד “Trillium” TPU v5 (נקרא גם TPU v6 בדיווחים מסוימים, ו-Ironwood הוא דגם מסוים) research.aimultiple.com research.aimultiple.com. שבב Ironwood TPU מספק 4,614 TFLOPS חישוב AI (כנראה INT8 או BF16) לכל שבב וניתן לאגדו עד לאשכולות של 9216 שבבים המגיעים ל-42.5 אקסה-פלופס research.aimultiple.com. ראוי לציין של-TPU v5 של גוגל יש 192GB HBM לכל שבב (כמו Blackwell), רוחב פס זיכרון 7.2TB/s (בדומה או גבוה יותר) וחיבור פנימי משופר של 1.2 טרתביט/שבב research.aimultiple.com. הוא גם חסכוני פי 2 בחשמל מ-TPUv4. הנתונים מראים כי ה-TPU החדשים של גוגל נמצאים בקטגוריה זהה ל-Blackwell בתחומים רבים.
ההבדל הוא ש-TPU אינם זמינים ברוחב שוק מלבד לשימוש עצמי של גוגל ולקוחות הענן שלה. הם מצטיינים במעמסים של הכפלות מטריצות גדולות והם מניעים מוצרים כמו Google Search, Photos וכו', אך מדובר באקוסיסטמה סגורה יותר. לדוג', TPU מותאם ל-TensorFlow ו-JAX בענן גוגל, בעוד ש-GPU של NVIDIA נמצאים בכל מקום ותומכים במגוון רחב של מסגרות. בהשוואה בין Blackwell ל-TPU למערכות AI רחבות היקף: Blackwell מציעה גמישות רבה יותר (תומכת במגוון רחב יותר של מודלים, אופרטורים מותאמים, ועוד), בעוד ש-TPU עשוי להציע יעילות מעט טובה יותר במעמסים מוגדרים היטב של גוגל. כנראה שגוגל תמשיך להשתמש ב-TPU משיקולי עלות פנימיים, אבל אפילו גוגל תציע Blackwell ב-Google Cloud לצד TPU nvidianews.nvidia.com. הדבר מרמז כי לקוחות רבים מעדיפים את פתרון NVIDIA או זקוקים לגמישותו. לסיכום: Google TPU חזקים מאוד – הדגם החדש מתחרה ב-Blackwell בנתונים גולמיים – אך הם משרתים שוק צר יותר. ל-Blackwell יתרון באימוץ רחב יותר ותמיכת תוכנה, ובעקבות כך אף גוגל משתפת פעולה עם NVIDIA (כפי שציין פיצ'אי, קיים “שיתוף פעולה ארוך שנים” בין החברות בתשתית) nvidianews.nvidia.com.
Cerebras (Wafer-Scale Engine)
Cerebras Systems נוקטת בגישה ייחודית עם ה-Wafer-Scale Engine (WSE) – שבב AI בגודל של ווייפר שלם. הדגם הנוכחי WSE-2 כולל 2.6 טריליון טרנזיסטורים ו-850,000 ליבות חישוב פשוטות במכשיר אחד research.aimultiple.com, פי כמה מכל שבב רגיל מבחינת טרנזיסטורים. היתרון: כל הליבות חולקות זיכרון מהיר וחיבור על גבי הווייפר כך שאין צורך בתקשורת מרובת שבבים. לאימון מודלים ענקיים לעיתים אפשר להחזיק את כל המודל על ווייפר אחד ולייתר את המורכבות של חלוקה לפרוסות על פני מספר רכיבי GPU. עם זאת, כל ליבה קלת משקל והמהירויות צנועות, כך שהתפוקה הגולמית אינה עולה ישר עם כמות הטרנזיסטורים. בפועל, מערכת Cerebras CS-2 (עם WSE-2 אחד) הדגימה אימון מודלים בסגנון GPT-3 בצורה פשוטה (בלי הקשיים של GPU מרובים), אך ביצועים למחיר עדיין לא גברו בברור על GPU, פרט למקרים מסוימים. לאחרונה הציגה Cerebras את ה-WSE-3 עם כמות טרנזיסטורים גדולה אף יותר (לפי הדיווחים 4 טריליון טרנזיסטורים) research.aimultiple.com.
בהשוואה ל-Blackwell: WSE של Cerebras יכולה להחזיק רשתות ענק בזיכרון, אבל החישוב הצפוף והתדר הגבוה של Blackwell מביאים לכך שכל GPU של Blackwell מבצע יותר פעולות לשנייה במטלות למידת עומק שגרתיות. לדוג', 40 PFLOPS ב-FP4 קשה ל-Cerebras להשיג אלא אם מנצלים תכונות דילול מלאות. Cerebras משווקת את הפתרון כפשוט להרחבה (פשוט מוסיפים עוד ווייפרים – מחוברים ב-MemoryX ו-SwarmX) ומצטיינת במודלים ענקיים דלילים או כשזיכרון מגביל. אך באימון דחוס סטנדרטי, דווקא אשכולות GPU (ובמיוחד Blackwell) נוטים להשיג תוצאות מהר יותר. למרות זאת, Cerebras מצאה נישה במעבדות מחקר ומציעה שירות ענן. ל-Blackwell, לעומת זאת, עם זיכרון אחוד עצום וקישור מהיר יותר, יש סבירות שיצמצם את הפער במודל וגודל המערכת שאליו Cerebras כיוונה.
Graphcore IPU
Graphcore, סטארט-אפ בריטי, פיתחה את יחידת עיבוד התבונה (IPU) עם דגש על מקביליות עדינה מאוד ורוחב פס גבוה בין ליבה לזיכרון. בשבב IPU יש ליבות קטנות רבות (ב-GC200 שלהם – 1,472 ליבות) עם זיכרון מקומי לכל ליבה, ומאפשרים הרצת רשתות עם מבנים בלתי-סדירים במקביליות רבה. מערכות IPU-POD (למשל IPU-POD256 עם 256 שבבים) הפגינו ביצועים טובים במודלים דלילים ורשתות גרף. המיקוד של Graphcore הוא פחות ב-TFLOPS גולמי ויותר באפקטיביות איטראקטיבית (כמו תלותיות מורכבות, לא רק מכפלות מטריצות). בהשוואה לנבידיה: Graphcore טוענת לביצועים תחרותיים באימון מודלי ראייה וכדאיות ב-batch קטנים. אך ככל שיותר מודלים עברו לטרנספורמרים צפופים, ה-IPU מתקשה לעמוד בדרישות ה-FLOPS והזיכרון. ה-Bow IPU החדש של Graphcore משתמש בזיכרון מוערם (3D) להעלאת רוחב הפס, אך עדיין כל IPU כולל פחות מ-900MB זיכרון, ביחס ל-GPU – כך שאימון מודלים גדולים מחייב הרבה IPUs ויצירת שברור מורכב. NVIDIA Blackwell, עם זיכרון עצום והאצת Transformer ייעודית, כנראה מרחיבה את הפער במשימות הפופולריות (כמו LLM). Graphcore מתמקדת בשווקים נישתיים (מופיעה בהצלחות פיננסיות ובראש-מוסדות מחקר research.aimultiple.com) ומדגישה יעילות אנרגטית טובה יותר למודלים בינוניים, אך Blackwell עם יעילותו ותנופת התוכנה (פיתוחי PyTorch וכו' מותאמים קודם כל ל-CUDA) מציבה את Graphcore בעמדת חולשה לאימוץ כללי. לסיכום, IPU של Graphcore הוא ארכיטקטורה חדשנית לנישות, אבל ה-GPU של Blackwell עדיין הם סוסי העבודה המובילים ברוב משימות ה-AI.
Tenstorrent וסטארטאפים נוספים בתחום שבבי AI
גל של סטארטאפים מנסה לאתגר את NVIDIA עם גישות אדריכליות חדשות, פעמים רבות מתמקדים בנישות מסוימות כמו יעילות אנרגטית או אינפרנס זול:
- Tenstorrent: בהובלת ג'ים קלר האגדי, Tenstorrent מפתחת שבבי AI על בסיס ארכיטקטורת dataflow גמישה ונעזרת בליבות RISC-V. השבב העדכני Wormhole מוצע בכרטיסי PCIe ובשרתים (מערכת Galaxy) לשימושי אימון ואינפרנס research.aimultiple.com. הדגש הוא על עיצוב מודולרי, והחברה אף מוכרת את קניינה לרישוי לשבבי אחרים. לאחרונה גייסה מעל $200 מיליון (כולל ממשקיע בולט כ-ג'ף בזוס) בניסיון להתחרות ב-NVIDIA research.aimultiple.com. אסטרטגיית Tenstorrent היא להיות מאיץ AI הניתן לרישוי ולשילוב במגוון מערכות (כולל רכב ו-edge). אין הרבה נתונים פומביים, אך הביצועים משוערכים תחרותיים מול NVIDIA מדרג ביניים במודלי ResNet או Transformer קטנים – אך לא ברמת Blackwell. הארכיטקטורה מיועדת ל-דאטה-סנטרים חסכוניים או edge בזכות תכנות RISC-V ויעילות אנרגטית עדיפה. אם ימשיכו לחדש, יש פוטנציאל נישתי; אך בטווח הקרוב Blackwell שולט מבחינת ביצועים ואקוסיסטמה.
- Mythic, Groq, d-Matrix ועוד: מספר סטארטאפים מכוונים להאצת אינפרנס בגישות לא קונבנציונליות. Mythic משתמשים במעגלים אנלוגיים ומחשב בתוך הזיכרון להכפלות מטריצה בכוח מזערי. Groq (מייסוד יוצאי גוגל שפיתחו את TPU) פיתחו מעבד המתזמן הוראות בפייפליין דטרמיניסטי (“תהליך הזרמה טנזורי”), ומתהדרים בזמן שיהוי נמוך ובביצועי batch-1 גבוהים – Groq טוען ליתרון במשימות אינפרנס בזמן אמת. d-Matrix מבנה שבבים ייעודיים לאינפרנס של מודלים שפתיים ענקיים תוך חישוב בזיכרון דיגיטלי. כל חברה מכסה פלח שוק שבו NVIDIA כבדה או יקרה מדי: Mythic להתקני edge זעירים, Groq למערכות קריטיות לזמן אמת, d-Matrix לשירות מודלי שפה במחיר נגיש. אבל כולן מתמודדות עם קשיי אינטגרציה תכנית והיקף. ל-Groq למשל ייתכן יתרון במשימה בודדת, אבל עוצמת Blackwell ואקוסיסטמת התוכנה הבשלה שלו הופכות אותו לבחירת ברירת המחדל בדאטה-סנטרים. לשים לב ש-NVIDIA עצמה מתמקדת גם בתחום האינפרנס עם תוכנה יעילה (כמו Triton Inference Server) ואף Grace Hopper למעמסים חסכוניים. המשמעות היא שלסטארטאפים יש יתרון רק אם הם מובילים בפער בנישה ממוקדת. נכון לעכשיו איש מהם לא מאיים על Blackwell בשוק האימון העליון, אך הם תורמים לנוף מאיצים מגוון.
- AWS Trainium ואחרים: מלבד מה שתואר לעיל, יש ספקיות ענן שמפתחות שבבי AI משלהן (Trainium של AWS לאימון ו-Inferentia לאינפרנס, ה-Athena של Microsoft לפי שמועות, ועוד). אשכולות Trainium v2 נמצאים בשימוש AWS פנימית (למשל לאימון מודלים של Anthropic) research.aimultiple.com. שבבים מותאמים מצמצמים תלות ב-NVIDIA ומבצעים אופטימיזציה למעמסי הענן (ובפעמים רבות בעלות נמוכה יותר). אלה לא סטארטאפים קטנים, אך הם תחרותיים בכך שהם גוזלים נתח-ענן מ-NVIDIA. אימוץ Blackwell בעננים מראה ש-NVIDIA עדיין מבוקשת מאוד, אבל התחרות מהשבבים הייעודיים תלחץ על מחירים ותכונות בעתיד.
בשורה התחתונה: נכון ל-2025, NVIDIA Blackwell מדגימה את חוד החנית במאיצי AI, אך התחרות ערה. AMD סוגרת פער (במיוחד בתחום האינפרנס ו-GPU עתירי זיכרון), TPU של גוגל מתחרות ב-NVIDIA ברמת העל (אך רק בגוגל), וסטארטאפים/פתרונות חלופיים מחדשים בתחומי יעילות ואינטגרציה. כפי שסיכם ניתוח בבבלומברג: “ללקוחות הממהרים לאמן מערכות AI… יתרון הביצועים של Hopper ו-Blackwell קריטי”, אך השאלה לכמה זמן תשמור NVIDIA את ההובלה, כשאחרים משקיעים סכומי עתק בשבבי AI bloomberg.com. עד כה, לוח הזמנים האגרסיבי של NVIDIA (Blackwell שנתיים בלבד אחרי Hopper, עם זינוק ענק) משאיר את המתחרות מאחור.
מבט לעתיד: מגמות בהאצת חומרה לבינה מלאכותית
לאחר ש-Blackwell קבע סטנדרטים חדשים, מה צפוי בעתיד לחומרת בינה מלאכותית? מספר מגמות עיקריות נראות באופק:
- המשך האבולוציה של מולטי-שבבים וצ'יפלטים: העיצוב הדו-שבבי של Blackwell הוא ככל הנראה רק ההתחלה. מאיצים עתידיים עשויים לשלב אפילו יותר צ'יפלטים – לדוגמה, לפצל פונקציונליות בין "compute tiles" ל-"memory tiles", או לשלב ליבות GPU עם ליבות AI ייעודיות. AMD ואינטל כבר בודקות ערימה בתלת-ממד (למשל V-Cache של AMD במעבדים, או פוטנציאל לערמת HBM/SRAM על גבי GPU). ייתכן שנבידיה תאמץ אינטגרציה בתלת-ממד בארכיטקטורות עתידיות ותמקם מטמון או לוגיקה מעל שבבי החישוב להאצה ויעילות. תקן האינטרקונט החדש UCIe עשוי לאפשר עירוב והתאמת צ'יפלטים מיצרנים שונים על אותה חבילה (דמיינו מודול עתידי עם צ'יפלט GPU של NVIDIA יחד עם מאיץ AI או שבב IO ייעודי מצד שלישי). ההצלחה של ה-MCM של Blackwell מבטיחה שעידן השבבים המונוליתיים העצומים הסתיים – עיצובי צ'יפלטים יהיו הסטנדרט במאיצים מתקדמים כדי לאפשר המשך גידול בביצועים.
- התמחות למשימות בינה מלאכותית: ככל שעולמות הבינה המלאכותית מגוונים, נראה יחידות ייעודיות נוספות בתוך המאיצים. Blackwell כבר הוסיפה את מנוע ה-Transformer. עיצובים עתידיים עשויים לכלול חומרה ייעודית לאלגוריתמי המלצה (הדורשים גישה אקראית לדאטה), רשתות נוירונים גרפיות או סימולציות בלמידה חיזוקית. יש גם עניין בחישוב אנלוגי לרשתות נוירונים (כפי ש-Mythic מפתחת) כדי להקטין צריכת חשמל, אם כי זה יופיע במוצרים נישתיים תחילה. נוסף על כך, צפויה תמיכה בפורמטים מספריים חדשים – ה-FP4 של Blackwell עשוי להיות מבוא לווריאציות נוספות (כגון block floating point, stochastic rounding) כדי להפיק יותר יעילות. למעשה, הקונספט של "tensor core" יתרחב לכלול מגוון רחב יותר של פעולות AI.
- קפיצת מדרגה באינטרקונקט – אופטי ומעבר: NVLink 5 הוא חשמלי, אך ככל שמערכי GPU מגיעים לסקאלת exascale, חיבורי נחושת יתקשו לעמוד בדרישות טווח וצריכת האנרגיה. התעשייה חוקרת אינטרקונקטים אופטיים לתקשורת בין ארונות שרתים ואפילו בין צ'יפים. רכישות של NVIDIA (Mellanox, Cumulus וכו') ומיזמים כמו Quantum InfiniBand בו יש חישוב ברשת (SHARP) מעידים על דגש בתחום התקשורת. בשנים הקרובות ייתכן שנראה GPUs עם I/O אופטי לחיבור סיבי ישיר בין שרתים, או ממשקי NVLink דמויי פוטוניקה שישמרו על רוחב פס גבוה למרחק רב. כך יתאפשרו אשכולות מבוזרים ענקיים (ייתכן אלפי מאיצים) המתנהגים כיחידה אחת – חשוב למודלים ענקיים ואינפרנס מבוזר.
- יעילות אנרגטית וקיימות: ככל שהמודלים ומרכזי הנתונים גדלים, צריכת החשמל מנקרת עיניים. ה-GPU של Blackwell עתירי הספק (ככל הנראה 700W+ למודול B100 SXM), ולמרות שהם יעילים יותר פר ביצוע מהדורות קודמים, צריכת האנרגיה הכוללת של תשתית AI רק עולה. החומרה העתידית תצטרך לשפר ביצועים לוואט משמעותית. האמצעים לכך כוללים מעבר לתהליכים מתקדמים (3nm, 2nm), טרנזיסטורים מסוג Gate-all-around, התאמת מתח/תדר דינמית לפי עומס AI, וקירור משופר (NVIDIA כבר הציגה קונפיגורציות Immersion וקירור נוזלי ל-HGX Blackwell nvidia.com). ייתכנו גם שינויים ארכיטקטוריים כמו שילוב חישוב אנלוגי או דיוק מופחת ברכיבי רשתות מסוימים כדי לחסוך חשמל. מאיצי AI לקצה ו-IoT יתרבו – שם החשמל קריטי, והידע שנצבר ב-ARM, קוואלקום, אפל (מנועים עצביים בסמארטפונים) יחלחל מהקצה העליון. ייתכן שנבידיה תציג ממשיכי Jetson בארכיטקטורת Blackwell לקצה – רובוטים, מצלמות, רכבים – שמביאות חלק מכוח הדאטה סנטר לצריכת הספק נמוכה.
- איזון בין מחשוב קצה ומחשוב ענן: ככל שהחומרה מתחזקת, חלק ממשימות ה-AI שנדרשו בעבר ענן יוכלו להתבצע על המכשיר. למשל, משקפי AR/VR עתידיים או רובוטים ביתיים עשויים לכלול מאיץ "בדרגת Blackwell מוקטנת" שיריץ AI מורכב מקומית (לטובת זמן תגובה ופרטיות). זה עשוי להוביל למודל מחשוב AI פדרטיבי יותר. מגמת מחשוב קצה גורמת לכך שדרושה האצת חומרה לא רק בשרתים גדולים אלא בגירסאות קטנות וניידות. ייתכן שנראה השפעה של Blackwell על עיצובי SoC (כמו DRIVE Thor לרכב, אולי יאיר גם רחפנים / בקרים תעשייתיים). האתגר הוא לספק ביצועים גבוהים במעטפת הספק/חום מוגבלת – חברות כמו EdgeCortex או יצרני שבבים סלולריים מתמודדים עם זה. בטווח הארוך, הקו בין "AI GPU" ל-SoC כללי יטושטש כמעט לגמרי, וכל התקני המחשוב יכילו יכולות האצה.
- שילוב AI עם HPC מסורתי: העתיד טומן בחובו שילוב הדוק יותר בין CPU ל-GPU (או מאיצי AI). ה-Grace (CPU)+Blackwell(GPU) סופר-צ'יפ של NVIDIA הוא צעד ראשון. גם APU של AMD, או Falcon Shores של אינטל (x86+Xe GPU), דומים. ככל שתקני זיכרון קוהרנטי משתכללים (CXL, המחבר זיכרון בין מאיצים ו-CPU), ייתכנו מערכות בהן למאיץ AI ו-CPU יש זיכרון משותף אמיתי – פחות העתקות נתונים, חשוב במיוחד לשילוב סימולציה עם AI (למשל מודל AI הלוקח חלק בלולאת סימולציה פיזיקלית). בטווח הארוך עשויות להופיע ארכיטקטורות “XPU” המאגדות סוגי ליבות שונים – סקלאריות, וקטוריות, מטריציות – לכל משימה. לעת עתה, השילוב Grace CPU עם Blackwell על NVLink הוא דוגמה בולטת (כמעט 1TB/s קוהרנטיות, מאחד עבודות CPU ו-GPU) nvidia.com. בעתיד, ייתכן ואפילו נראה אינטגרציה על אותו שבב.
לסיכום, עתיד חומרת הבינה המלאכותית יתמקד בדחיפת גבולות הביצועים לצד התייעלות ופיתוח תצורות חדשות. התחרות תוביל לחדשנות מואצת – נבידיה לא תשקוט, וגם לא AMD, אינטל, גוגל ומגוון סטארט-אפים. צפויה פריחה של מאיצים מתמחים לפי סולם (ענן, קצה) ומטרה (אימון, אינפרנס, התמחות). עם זאת, לאור המומנטום של NVIDIA עם Blackwell, הצפי הוא שהיא תכתיב את הקצב בטווח הקרוב. ג'נסן הואנג מדבר לא מעט על “accelerated computing” כיעד האסטרטגי של החברה nvidianews.nvidia.com, כלומר הפיכת ה-GPU למאיץ כל משימה חישובית. Blackwell וממשיכיו עשויים להפוך כלליים יותר ולהריץ לא רק רשתות בינה מלאכותית אלא גם עיבוד דאטה, שאילתות דטהבייס מואצות ב-AI – כך שתטשטש גם הבחנה בין שבב AI למעבד גנרי.
השפעה שוקית ומשמעויות
ההשקה של Blackwell משפיעה עמוקות על תעשיית ה-AI והשוק:
- ספקיות ענן: "הייפרסקלרים" (AWS, Azure, Google Cloud, Oracle) ממהרים להפעיל GPU Blackwell בדאטה-סנטרים שלהם כי הביקוש ל-AI הוא בולע-כול. כל אחת כבר הכריזה על זמינות Blackwell לשנים 2024–2025 nvidianews.nvidia.com. זה כנראה יחזק את השליטה של NVIDIA בענן, למרות שספקיות הענן מפתחות גם שבבים משלהן. בטווח המיידי, לקוחות הענן יהנו ממכונות חדשות – משתמש AWS יוכל להשכיר Blackwell ולהאיץ אימון או לבצע יותר שאילתות בינה לאותו דולר. ייתכן שתהיה הוזלה בעלות חישוב AI בענן (או לפחות תגבור ביצועים באותה עלות), מה שמאפשר לסטארט-אפ לבצע אימון על מודל ענק הגדול אף יותר ממשאבים של מעבדה עשירה. מנגד, עננים יפקחו על ההוצאות; GPU של Blackwell יקרים מאוד (עשרות אלפי דולרים ליחידה) ומחירי הענן ישקפו את הפרימיום – כבר כעת ב-H100 היו מחסור והגבלות כתוצאה מהביקוש. עם הפופולריות העצומה של Blackwell (ואספקה מוגבלת), סביר להניח שמחסורים או הקצאות מגבילות ימשכו לתוך 2025. עננים שיקבלו נתח Blackwell גבוה (למשל Oracle עם גישה מוקדמת, או AWS בהסכמות פיתוח משותף nvidianews.nvidia.com) יוכלו למשוך לקוחות AI כבדים.
- ארגונים ואימוץ AI: מערכות Blackwell מוזילות משמעותית את חסם הכניסה לארגונים שמבקשים להטמיע AI מתקדם. תחומים כמו פיננסים, תקשורת, קמעונאות ותעשייה במרוץ לשלב בינה בכל תהליך ומוצר. היעילות של Blackwell מאפשרת לארגון לקבל את כוח הסוס הדרוש עם פחות שרתים – מקום בו היה צורך ב-16 שרתי DGX בדור הקודם יכול להספיק 4 מערכות Blackwell לאותה עבודה. כך גם פחות חומרה, הספק ושטח – יתרון לקבוצות עם דאגות סביבתיות והוצאות חשמל גבוהות. צפויים פרויקטי מודרניזציה ב-AI עם הפצת Blackwell: למשל, בנקים משדרגים פלטפורמות זיהוי הונאות ומידול סיכונים, יצרני רכב מאיצים פיתוח נהיגה אוטונומית (כפי שיצרנים רבים עוברים ל-Drive Thor). ארגונים יתרגלו לתכונות כמו confidential computing ב-Blackwell לעמידה בתקנות – למשל, חברות בריאות שישמרו נתוני מטופלים מוצפנים תוך שימוש ב-GPU לחישוב nvidia.com.
- סטארטאפים ומעבדות מחקר ב-AI: עבור סטארט-אפים ב-AI (פיתוח מודלים או שירותים), ל-Blackwell יש פוטנציאל לשינוי כללי המשחק. זה משווה קצת את תנאי השוק, כי סטארט-אפ יוכל לשכור מעבדי Blackwell בענן או מאכסון ולגשת לאותה ליגה של חומרה כמו החברות הגדולות (חברות כמו CoreWeave, Lambda וכו' יציעו Blackwell ב-2024 nvidianews.nvidia.com). סטארט-אפ ממומן יוכל לאמן מודל חדיש מבלי להמתין חודשים בתור ובלי להתפשר על גודל המודל. התוצאה: האצה בחדשנות ותחרות חדה יותר בפיתוח מודלים. עם זאת, קיים חשש לפער גדל בין אלו שיכולים להרשות לעצמם חומרה עילית לאלו שלא. GPUs המובילים יקרים ומוקצים בראשונה ללקוחות גדולים – מצב שהוביל לתסכול של חוקרים באקדמיה בתקופת H100. אם Blackwell יהיה נדיר ומבוקש דומה, חלק מהמעבדות הקטנות ימשיכו להתקשות בזמינות. ייתכן שיהיה מעבר לסופר-מחשבים קהילתיים (אשכולות אקדמאיים עם Blackwell במימון מדינה) או שימוש בצ'יפים מתחרים (AMD, אם יהיו זמינים מוקדם וזולים). אך בגדול, פרישת Blackwell באמצע 2025 תדחוף את קצב הפיתוח והחידושים ותאפשר פריצות דרך חדשות במודלים, אשר נמנעו עד כה ממחסומי מחשוב.
- תחרות בשוק: מבחינת שוק, Blackwell ממקמת את NVIDIA בלב שוק ה-AI. אנליסטים מציינים שנבידיה מחזיקה ב-80-90% מהשוק, והיתרון של Blackwell יקשה לשבור את ההגמוניה reddit.com. AMD היא המתחרה הקרובה – השגת 15-20% נתח בשנים הקרובות תלויה בהצלחת MI300 ושיחרור הדור הבא בזמן. אם Blackwell יוביל ויאומץ טוטאלית, לקוחות רבים עשויים לוותר על בחינה אלטרנטיבית, ובכך תתחזק השליטה של NVIDIA (בדומה לאיך ש-CUDA הפך ברירת מחדל). מאידך, הגודל האדיר של שוק ה-AI (טריליונים), מותיר מקום לכמה שחקנים. ספקיות הענן מגוונות עם צ'יפים ייעודיים (Google TPU, AWS Trainium). אם יצליחו, יצמצמו את שליטת NVIDIA בענן. קיימים גם משתנים גיאופוליטיים – חברות סיניות לא יכולות לייבא את ה-GPU החזקים ביותר, ולכן מפתחות צ'יפים מקומיים (Biren, Alibaba T-Head, Huawei Ascend). הצ'יפים האלה בפיגור דור-שניים (דומים ל-A100) research.aimultiple.com research.aimultiple.com, אך בעתיד יוכלו לשפר וליצור אקוסיסטמות נפרדות. נבידיה מגיבה בגרסאות מוחלשות (H800 לסין). קרוב לוודאי ש-Blackwell יכלול גם גרסאות מוגבלות ייצוא. המשמעות: פיצול שוק החומרה הגלובלי גיאוגרפית; אך בטווח הקרוב, NVIDIA היא ברירת המחדל בעולם.
- כלכלה ועלות AI: ההבטחה של Blackwell היא אפקט של הורדת עלות לאימון או אינפרנס – מה שעשוי להאיץ יישום AI גם בתחומים רגישי תקציב. לדוגמה, יעילות של פי 25 באינפרנס תאפשר להפעיל מודלי שפה גדולים באפליקציות צרכניות שהיו יקרות מדי על H100. ניתן לדמיין תוספות AI זולות לכלים משרדיים, עוזרים חכמים ועוד. ייתכן שנראה שירותי "AI-כמו-שירות" על בסיס Blackwell – חברות שישכרו GPU לעיבוד מודלים עבור לקוחות (חברות כמו MosaicML, כיום חלק מ-Databricks, עשו זאת בדור הקודם; Blackwell יגביר אותם). מנגד, העלות האבסולוטית תניב הוצאה כוללת גבוהה, כלומר החברות יוציאו אותו תקציב פשוט בעוד יותר AI – לא פחות. למעשה, השווי השוק של NVIDIA (טריליוני דולרים) משקף את הציפייה לכך שהביקוש יאוץ ככל שה-AI ממלא את כל הענפים. Blackwell בסך-הכול מפתח מגמת הרעב לחישוב AI: היצע גבוה יותר יוליד יישומים חדשים – שיגדילו שוב את הביקוש, וחוזר חלילה.
- מלכודת החדשנות: הפריסה הרחבה של Blackwell תשפיע גם על מחקר עתידי. החוקרים יוכלו להתנסות בניסויים גדולים בהרבה, או בגישות כבדות חישובית (אנצמבלים ענקיים, אימון עם רצפים ארוכים וכו') שלא היו אפשריים בעבר משיקולי משאבים. ייתכן ונראה פריצות דרך שחיכו ליכולת החישובית – מודלים 3D באיכות מקורית, מודלים מולטי-מודליים מורכבים בהרבה. בדומה למה שקרה במדע בסיסי עם HPC, זמינות מחשוב מסיבית ב-AI תאפשר התנסויות וארכיטקטורות שעד כה לא היו בנות ביצוע (אולי משהו שאינו Transformer).
- לוח זמנים לדור הבא: לבסוף, השפעת Blackwell תלויה גם במשך הזמן בו יהיה דגל הדור – NVIDIA שומרת על קצב של דור גדול כל שנתיים. אם תמשיך כך, ייתכן נצפה למחליף (שם קוד כנראה באות C – אולי Curie) בשנת 2026/27. עד אז, Blackwell יהיה עמוד התווך של מערכות ה-AI המתקדמות, והצלחה שלו תכתיב לצוותים המתחרים איך לפעול (למשל, האצת לוח זמנים ל-AMD, החלטה על כיוון לאינטל).
לסיכום – NVIDIA Blackwell אינה רק שבב חדש, אלא מאיץ של האקוסיסטמה השלמה של ה-AI. הוא נותן למהנדסים וחוקרים יכולת ליצור יותר, מעניק לעסקים תובנות חכמות יותר ומוצרים מהירים, ודוחף את המתחרים להגביר קצב. ממגה-דאטה-סנטרים ועד מכונות אוטונומיות בקצה – Blackwell וצאצאיו יניעו את גל החדשנות הבא ב-AI, וייקחו אותנו "Blackwell ומעבר" לעידן המחשוב המואץ.
מקורות: המידע בדו"ח זה מבוסס על הכרזות רשמיות ותדריכים טכניים של NVIDIA בנוגע לארכיטקטורת Blackwell nvidia.com nvidianews.nvidia.com, ניתוחים של מומחים בתעשייה וכתבי עת (IEEE Spectrum, HPCwire, Forbes) בנוגע להשוואות ביצועים spectrum.ieee.org ai-stack.ai, והודעות לעיתונות משותפות של שותפי NVIDIA המדגישות מקרי שימוש בענן, רכב ובריאות nvidianews.nvidia.com worldbusinessoutlook.com. מקורות אלה כוללים גם את הכרזות NVIDIA בכנס GTC 2024 nvidianews.nvidia.com, בלוגים טכניים cudocompute.com cudocompute.com, והערכות מגורמי צד שלישי עבור חומרת בינה מלאכותית חדשה research.aimultiple.com bloomberg.com. יחד הם מספקים תמונה מקיפה של היכולות של Blackwell והקשרה בנוף המתפתח של חומרת בינה מלאכותית.