DeepSeek-R1 випущено рік тому, представлено нову модель «MODEL1»

BlockBeats повідомляє, 21 січня, згідно з даними Quantum Bit, у рік випуску DeepSeek-R1 було розкрито нову модель «MODEL1» у честь першої річниці. DeepSeek оновив код FlashMLA на GitHub, у 114 файлах згадується 28 разів MODEL1, яка з’являється як окрема модель від V32. Відомо, що V32 — це DeepSeek-V3.2, а MODEL1 ймовірно є новою архітектурою. Конкретні відмінності у коді проявляються у розташуванні кешу KV, обробці розрідженості та декодуванні FP8, а також у кількох аспектах оптимізації пам’яті.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів