1,6 триллиона параметров на чипах Huawei: что на самом деле значит релиз DeepSeek V4
Опубликовано 27.04.2026
•
Engineering
Когда модель с 1,6 триллиона параметров запускается на чипах, которые изначально не были спроектированы для такого класса задач, это не столько демонстрация технологического превосходства, сколько инженерный компромисс. DeepSeek представила предварительную версию V4 — своей самой крупной модели — на ускорителях Huawei, и это решение говорит о ситуации на рынке гораздо больше, чем цифры в даташите. Вопрос не в том, насколько V4 умнее предшественников, а в том, какую цену приходится платить за аппаратную независимость.
Наша команда не раз сталкивалась с ситуацией, когда выбор железа диктуется не производительностью, а доступностью. Если вы работаете с AI-инфраструктурой в регионе, где NVIDIA под санкциями или стоит в три раза дороже, вы неизбежно будете искать альтернативы. DeepSeek, судя по всему, пошла по этому пути, но с оговоркой: чипы Huawei, скорее всего, потребовали серьёзной оптимизации на софтовом уровне — от кастомных ядер CUDA-подобных runtime до переписывания слоёв внимания под конкретную архитектуру тензорных блоков. Это не та история, которую можно повторить за выходные.
Производительность как функция ограничений
1,6 триллиона параметров — это число, которое вызывает уважение, но на практике inference такой модели на доступном железе будет либо медленным, либо дорогим. Даже на H100 такая модель потребует кластеров и распределённого вывода. На чипах Huawei — тем более. Мы бы предположили, что DeepSeek применила aggressive pruning или mixture-of-experts с разреженной активацией, иначе latency была бы неприемлемой для реального использования. Оригинальная новость от Tom's Hardware упоминает, что это лишь предварительная версия, что оставляет пространство для дальнейших компромиссов.
Политический контекст vs инженерная реальность
Утверждения США о краже интеллектуальной собственности — это шум, который не меняет физику. Даже если допустить, что DeepSeek имела доступ к чужим наработкам, запуск модели на нестандартном железе требует такого объёма собственной инженерной работы, что копирование становится лишь малой частью истории. Намного интереснее другой вопрос: сможет ли DeepSeek поддерживать эту модель в продакшене, когда каждая оптимизация под Huawei будет привязана к конкретной ревизии чипа и библиотеки? В нашей практике замена одного GPU-вендора на другой — это минимум три месяца адаптации production pipeline, даже если модель уже обучена.
Пока одни спорят о политике, другие считают latency per token. И здесь главный урок для тех, кто выбирает инфраструктуру под AI: если вы закладываетесь на проприетарное железо с закрытым софтом, вы берёте на себя вендор-лок, который может оказаться жёстче, чем любой политический запрет.
