
Kail
Организатор
Организатор
- Регистрация
- 09.04.2020
- Сообщения
- 395 158
- Реакции
- 38 820
- Монеты
- 1 191
- Оплачено
- 0
- Баллы
- 0
- #SkladchinaVip
- #1
DeepSeek v3 – как Китай нагнул США [Ранас Мукминов]
- Ссылка на картинку
-
DeepSeek также выпустила DeepSeek-V3, модель Mixture-of-Experts (MoE) с 671B параметрами, из которых 37B активированы для каждого токена. Модель использует Multi-head Latent Attention (MLA) и архитектуру DeepSeekMoE для эффективного вывода и экономичной обучения. DeepSeek-V3 была предварительно обучена на 14,8 триллионах разнообразных и высококачественных токенов, за которыми следовали этапы контролируемой доработки и обучения с подкреплением, чтобы полностью использовать ее возможности.
Оценки показывают, что DeepSeek-V3 превосходит другие модели с открытым исходным кодом и достигает производительности, сопоставимой с ведущими закрытыми моделями, при этом для полного обучения требуется всего 2,788M часов H800 GPU.
Оценки показывают, что DeepSeek-V3 превосходит другие модели с открытым исходным кодом и достигает производительности, сопоставимой с ведущими закрытыми моделями, при этом для полного обучения требуется всего 2,788M часов H800 GPU.
Показать больше
Зарегистрируйтесь
, чтобы посмотреть скрытый контент.