Data Pelatihan DeepSeek V4 Berlipat Ganda Jadi 33T, Memicu Ketidakstabilan yang Menunda Rilis

Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui “tantangan ketidakstabilan yang signifikan” selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts (MoE); mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut.

DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi (menambahkan overhead sekitar 20%), serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui “prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai.”

Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan “menjelaskan keterlambatannya.” Ia menggambarkan dua solusi tersebut sebagai “perban sementara” sambil mengakui transparansi teknis DeepSeek.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Riset Microsoft: Hanya 13% karyawan yang gagal dalam inovasi tempat kerja berbasis AI menerima insentif perusahaan

Berdasarkan laporan Indeks Tren Pekerjaan tahunan yang dirilis Microsoft pada 5 Mei, laporan tersebut menganalisis miliaran sinyal produktivitas Microsoft 365 yang anonim, serta melakukan survei terhadap 20.000 karyawan di beberapa pasar seperti Amerika Serikat, Inggris, India, dan Jepang. Data laporan menunjukkan hanya 13% karyawan yang mengatakan bahwa pemberi kerja akan memberikan insentif ketika mereka mencoba meningkatkan pekerjaan dengan AI tetapi tidak mendapatkan hasil yang diharapkan.

MarketWhisper4menit yang lalu

Meta mengembangkan asisten AI Hatch untuk menyaingi OpenClaw, menyelesaikan uji internal sebelum akhir Juni

Menurut Financial Times pada 5 Mei, Meta sedang mengembangkan asisten AI untuk konsumen umum (Hatch), terinspirasi dari OpenClaw milik OpenAI, dengan target menyelesaikan uji internal sebelum akhir Juni; Meta juga berencana sebelum kuartal keempat tahun ini mengintegrasikan alat belanja berbasis agen yang berdiri sendiri ke layanan Instagram miliknya.

MarketWhisper14menit yang lalu

Sidang Pengadilan OpenAI, Brockman bersaksi: Musk pernah mengatakan tidak akan mengutamakan keamanan; sahamnya berisiko bergerak kasar

Menurut New York Post pada 6 Mei, CEO OpenAI Greg Brockman pada 5 Mei bersaksi di Pengadilan Distrik Federal Oakland di California, mengungkapkan pidato untuk semua pihak yang disampaikan Musk saat keluar dari dewan OpenAI pada 2018. Brockman mengatakan bahwa saat mendorong AI di Tesla, Musk “tidak akan menghabiskan waktu untuk keamanan”, serta bahwa pada 2017 ia sempat terlibat pembicaraan yang nyaris berujung kekerasan dengan salah satu pendiri OpenAI terkait porsi kepemilikan saham.

MarketWhisper1jam yang lalu

Perusahaan Keamanan Siber India Memakai AI untuk Memangkas Pengujian Kerentanan hingga Hitungan Jam

Perusahaan keamanan siber India termasuk Indusface dan Astra Security sedang mengadopsi agen AI yang dibangun di atas model bahasa besar untuk mempercepat pengujian kerentanan perangkat lunak dari hitungan hari atau minggu menjadi hitungan jam, menurut The Economic Times. Perubahan ini mencerminkan meningkatnya kecepatan pelaku dan munculnya kemampuan alat AI

CryptoFrontier1jam yang lalu

Membantah gelembung AI! CEO BlackRock: Kekurangan daya komputasi akan memunculkan “pasar futures daya komputasi”

Permintaan global untuk AI dan kebutuhan komputasi melonjak, CEO BlackRock Fink membantah adanya gelembung AI, dengan menyatakan kelangkaan daya komputasi akan melahirkan kategori aset baru bernama “komputasi berjangka”. Untuk mengikuti tren, BlackRock bekerja sama dengan Microsoft, Nvidia, dan MGX mengucurkan ratusan miliar dolar AS untuk pusat data dan infrastruktur energi; GIP membeli Aligned Data Centers dengan nilai sekitar 40 miliar dolar AS, serta berkolaborasi dengan EQT untuk akuisisi AES senilai 10,7 miliar dolar AS. Fink dan pihak lain seperti Brookfield memandang ini sebagai peluang investasi majemuk yang kokoh dalam jangka panjang, dengan imbal hasil yang dapat berlanjut selama puluhan tahun.

ChainNewsAbmedia2jam yang lalu
Komentar
0/400
Tidak ada komentar