Data Pelatihan DeepSeek V4 Berlipat Ganda Jadi 33T, Memicu Ketidakstabilan yang Menunda Rilis

Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui “tantangan ketidakstabilan yang signifikan” selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts (MoE); mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut.

DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi (menambahkan overhead sekitar 20%), serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui “prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai.”

Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan “menjelaskan keterlambatannya.” Ia menggambarkan dua solusi tersebut sebagai “perban sementara” sambil mengakui transparansi teknis DeepSeek.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Elastics Menyelesaikan Putaran Pre-Seed senilai $2 Juta yang Dipimpin oleh Frst

Menurut ChainCatcher, Elastics, sebuah sistem operasi pasar prediksi berbasis AI, telah menyelesaikan putaran pendanaan Pre-Seed senilai $2 juta. Frst memimpin putaran tersebut, dengan partisipasi dari ElevenLabs, XBTO, RedStone, dan

GateNews23menit yang lalu

Mantan Eksekutif Qualcomm Alex Katouzian Bergabung dengan Intel sebagai EVP Client Computing dan Physical AI pada 4 Mei

Intel mengumumkan pada 4 Mei bahwa Alex Katouzian, eksekutif senior dari Qualcomm, telah bergabung dengan perusahaan sebagai executive vice president dan general manager dari Client Computing and Physical AI Group, melapor langsung kepada CEO Chen Lixu. Katouzian menghabiskan 25 tahun di Qualcomm, paling baru menjabat sebagai e

GateNews55menit yang lalu

Media K Wave yang Terdaftar di Nasdaq Membatalkan Cadangan Bitcoin, Mengalihkan $485M ke AI

K Wave Media yang terdaftar di Nasdaq telah membatalkan rencana perbendaharaan bitcoin-nya dan mengalihkan $485 juta untuk investasi kecerdasan buatan, kurang dari setahun setelah menggalang $500 juta untuk bitcoin awalnya

GateNews58menit yang lalu

Nova Intelligence Menyelesaikan Putaran Seri A senilai 31,5 juta dolar yang dipimpin Chemistry pada 5 Mei

Menurut Fortune, platform AI agent Nova Intelligence menyelesaikan putaran pendanaan Seri A senilai 31,5 juta dolar AS pada 5 Mei, dipimpin oleh Chemistry. Accel, Conviction, dan SAP.io juga ikut berpartisipasi dalam putaran tersebut. Platform Nova menganalisis, memodernisasi, dan menghasilkan kode khusus untuk penggajian, rantai pasok, dan

GateNews1jam yang lalu

Cipher Digital Mengamankan Fasilitas Kredit $200M untuk Memperluas Pusat Data AI dan HPC

Menurut Globenewswire, Cipher Digital, penambang bitcoin yang tercatat di Nasdaq, mengamankan fasilitas kredit bergulir senilai 200 juta dolar AS dari institusi keuangan global untuk meningkatkan likuiditas dan mempercepat ekspansi platform pusat data AI dan komputasi berkinerja tinggi (HPC). Perusahaan melaporkan Q1

GateNews2jam yang lalu

Quantum Leap Menyelesaikan IPO $200M , Berupaya Meraih Akuisisi Blockchain dan AI

Menurut Businesswire, pada 5 Mei, perusahaan special purpose acquisition Quantum Leap menyelesaikan penawaran umum perdana (initial public offering) senilai 200 juta dolar AS dan mulai diperdagangkan di Bursa Efek New York di bawah simbol ticker QLEPU. Perusahaan berencana menggunakan dana hasil penawaran untuk mengejar akuisisi dan transaksi merger i

GateNews2jam yang lalu
Komentar
0/400
Tidak ada komentar