DeepSeek Merilis Seri Model Open-Source V4 dengan 1,6T Parameter dan Lisensi MIT

Pesan Gate News, 24 April — DeepSeek telah merilis seri model open-source V4 di bawah Lisensi MIT, dengan bobot kini tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model (MoE) mixture-of-experts: V4-Pro dengan total parameter 1,6 triliun dan 49 miliar yang diaktifkan per token, serta V4-Flash dengan total parameter 284 miliar dan 13 miliar yang diaktifkan per token. Keduanya mendukung jendela konteks 1 juta token.

Arsitekturnya menampilkan tiga peningkatan kunci: mekanisme attention hibrida yang menggabungkan compressed sparse attention (CSA) dan heavily compressed attention (HCA) yang secara signifikan mengurangi overhead untuk konteks panjang—FLOPs inferensi V4-Pro untuk konteks 1M hanya 27% dari V3.2, dan KV cache (VRAM untuk menyimpan informasi historis selama inferensi) hanya 10% dari V3.2; manifold-constrained hyperconnections (mHC) menggantikan residual connection tradisional untuk meningkatkan stabilitas propagasi sinyal lintas-lapis; dan optimizer Muon untuk konvergensi pelatihan yang lebih cepat. Pra-pelatihan menggunakan lebih dari 32 triliun token data.

Pascapelatihan menggunakan pendekatan dua tahap: pertama melatih expert khusus domain melalui supervised fine-tuning (SFT) dan reinforcement learning GRPO, lalu menggabungkannya menjadi satu model melalui distilasi online. V4-Pro-Max (highest inference mode) mengklaim sebagai model open-source terkuat dengan benchmark coding kelas atas dan kesenjangan yang secara signifikan dipersempit dibandingkan model frontier closed-source dalam tugas penalaran dan agen. V4-Flash-Max mencapai performa penalaran level Pro dengan anggaran komputasi yang cukup, tetapi dibatasi oleh skala parameter pada pengetahuan murni dan tugas agen yang kompleks. Bobot disimpan dalam presisi campuran FP4+FP8.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Bisnis Berkshire Energy Melihat Peluang Pertumbuhan dari Lonjakan Permintaan Energi Berbasis AI

Menurut Beating, dalam rapat pemegang saham Berkshire, CEO Abel menyoroti bahwa permintaan listrik yang digerakkan oleh AI menciptakan peluang pertumbuhan baru bagi bisnis energi perusahaan, dengan separuh utilitas energinya sudah menangani kebutuhan daya terkait AI. Di Iowa, pusat data sekarang menyumbang

GateNews2jam yang lalu

Kesaksian pekan pertama gugatan Musk vs Altman: Mengakui XAI menyuling OpenAI, peringatkan AI seperti Terminator

Musk dalam kesaksian pengadilan minggu pertama di Pengadilan Federal Oakland menuduh Altman dan Brockman menipu dana nirlaba awal, memperingatkan risiko kiamat AI, dan mengakui bahwa sebagian xAI disuling dari model OpenAI; ia mengatakan ia menginvestasikan 38 juta dolar AS, menyaksikan OpenAI beralih dari nirlaba menjadi valuasi 800 miliar dolar AS. Investasi Microsoft pada tahun 2022 dipandang sebagai titik balik runtuhnya kepercayaan. OpenAI berpendapat Musk berusaha membajak, dan membela diri dengan motif persaingan sebagai alasan. Selanjutnya pada minggu kedua, para saksi termasuk Russell dan Brockman.

ChainNewsAbmedia4jam yang lalu

AI Keuangan Terkait Trump Akuisisi Block Street senilai 43 Juta Dolar AS

Menurut Fortune, AI Financial, sebuah perusahaan kripto yang terkait dengan keluarga Trump dan sebelumnya dikenal sebagai Alt5 Sigma, mengakuisisi Block Street, sebuah perusahaan infrastruktur kripto, senilai 43 juta dolar AS minggu lalu. Matthew Morgan, penasihat AI Financial dan CEO Block Street, menyatakan bahwa akuisisi tersebut bukanlah

GateNews4jam yang lalu

Saham Riot Melonjak 8% Setelah Memperluas Kesepakatan Pusat Data AMD

Saham perusahaan penambang Bitcoin, Riot, naik 8% setelah ekspansi kesepakatan pusat data AMD. Kemitraan yang diperluas mencakup ketentuan pembiayaan yang lebih baik, menegaskan pergeseran strategis Riot dari penambangan bitcoin menuju operasi pusat data untuk kecerdasan buatan. Langkah ini menandakan meningkatnya kepercayaan

GateNews7jam yang lalu

Minnesota Melarang Alat AI untuk Gambar Intim Tanpa Persetujuan, Dikenai Denda Hingga $500K

Menurut Decrypt, legislatif Minnesota mengesahkan RUU pada 2 Mei yang melarang situs web dan aplikasi menyediakan alat AI yang menghasilkan gambar intim non-konsensual dari individu yang dapat diidentifikasi. Undang-undang ini melarang platform mengizinkan pengguna mengakses atau menggunakan alat “deepfake” seperti itu, dan melarang

GateNews8jam yang lalu

Pengguna ChatGPT Kini Bisa Mengakses Langganan di Platform OpenClaw, Sam Altman Mengumumkan

Menurut pengumuman Sam Altman hari ini, pengguna ChatGPT kini dapat masuk ke platform agen OpenClaw menggunakan akun ChatGPT mereka dan langsung mengakses langganan ChatGPT yang sudah ada di platform tersebut.

GateNews9jam yang lalu
Komentar
0/400
Tidak ada komentar