Когда память дороже GPU: о чём молчит Nvidia в презентациях Vera Rubin
Опубликовано 22.05.2026
•
Engineering
Смотреть на стоимость GPU в отрыве от остальной системы — примерно как считать цену дома по стоимости фундамента. Nvidia выпустила платформу Vera Rubin, и по расчётам Tom's Hardware один такой rack обходится в $7,8 млн. Из них почти $2 млн — только память (HBM4), а каждый GPU Rubin стоит «всего» $50 000. За пять лет доля памяти в стоимости стойки выросла с 5% до 25% — рост в 485%.
Для тех, кто собирает инфраструктуру под обучение и инференс, эта цифра — не просто новость про Nvidia. Это сигнал, что архитектура будущих AI-систем будет определяться не столько флопсами GPU, сколько пропускной способностью и объёмом памяти. И трейдоффы, которые раньше были на периферии, становятся центральными.
Память как узкое горлышко, которое теперь ещё и дорогое
Рост стоимости HBM — не случайность. LLM растут быстрее, чем ёмкость одного GPU: модель вроде Llama 3.1 405B требует ~800 ГБ только для весов в FP16. Даже с 288 ГБ HBM3e на B200 это три GPU вразрез — и межсоединение начинает доминировать в задержках. HBM4 обещает до 1 ТБ/с на стек, но цена за гигабайт растёт: сложность производства (гибридное bonding, больше слоёв) бьёт по выходу годных кристаллов.
На нашем опыте, большинство команд, проектирующих AI-кластеры, закладывают бюджет на GPU как на главную статью, а память считают «расходником». В реальности, когда вы упираетесь в лимит VRAM на батч, вы либо покупаете ещё один GPU (и платите за его compute, который не нужен), либо берёте более дорогую память. И то, и другое — скрытые затраты, которые в Vera Rubin становятся явными.
Почему $50 000 за GPU — это ловушка
Сама цифра «$50 000 за Rubin» выглядит как демократизация. Но в системе из 72 GPU (типичный rack) память уже стоит $2 млн, а GPU — $3,6 млн. Соотношение 1:1,8 — и оно будет смещаться в сторону памяти. Для инференса, где latency критична, придётся ставить больше HBM на один GPU, что делает каждый дополнительный гигабайт памяти дороже самого чипа. Для обучения — наоборот: можно размазать модель по большему числу GPU, но тогда платишь за interconnect (NVLink/NVSwitch), который тоже не бесплатный.
Вывод, который мы обычно делаем для себя: при проектировании AI-инфраструктуры стоит моделировать полную стоимость владения (TCO), включая память, интерконнект и охлаждение, а не только «сколько стоят GPU». Иначе, как в стройке, можно получить фундамент за $50 000, а потом потратить $200 000 на стены и крышу — и удивиться, что дом всё равно не влезает в бюджет.
Что это значит для выбора архитектуры
Ну, почти «что это значит». На самом деле: если память дорожает быстрее compute, то стратегия «купим больше GPU и распараллелимся» становится менее выгодной. Альтернативы — более эффективные форматы (FP4, 2-bit квантование), спекулятивный decoding (чтобы меньше обращений к памяти на токен), или переход на custom ASIC с близкой к HBM памятью (как у Google TPU или Groq). Но каждая из них — свой трейдофф: квантование режет качество, спекуляция увеличивает latency на batch, а ASIC — это жёсткая привязка к одному vendor.
В итоге, новость про Vera Rubin — не про Nvidia. Она про то, что AI-инфраструктура перестаёт быть «просто купи GPU». И те, кто закладывает бюджет на 2025-2026, уже сейчас должны считать не флопсы, а гигабайты в секунду на доллар.
Похожие статьи
Starship V3: космическая стройка, где чертежи пишут по ходу полёта
SpaceX запустила Starship V3 — успешно, но без выхода на орбиту. Разбираем, почему подход «fail fast» работает в космосе и IT, и когда лучше сначала чертить, а потом строить.
24.05.2026
VS Code-расширение как точка входа: 3800 репозиториев скомпрометированы
Утечка 3800 репозиториев GitHub через вредоносное расширение VS Code: почему IDE — слабое звено безопасности и как снизить риск, не запрещая плагины.
21.05.2026
Зелёные и синие пузыри наконец-то зашифрованы. Что изменилось для продакшна?
Apple и Google внедрили E2EE между iMessage и Messages. Разбираем, почему это не только победа privacy, но и вызов для интеграций, чат-ботов и корпоративных сценариев.
13.05.2026