DeepSeek kembali menjadi "pembantai harga" tetapi kali ini bukan hanya harga yang dibantai

Penulis: Xiao Jing

Token sedang membentuk kembali koordinat nilai era AI, versi pratinjau DeepSeek V4 dirilis, sekali lagi menjadi “penyembel harga”, tetapi membawa proposisi baru dalam penetapan harga token. Jumlah Token yang sama, biaya nyata di sistem yang berbeda bisa berbeda satu tingkat, model besar sedang menuju penetapan harga tingkat sistem.

Versi pratinjau DeepSeek V4 akhirnya dirilis, sekali lagi menurunkan harga model besar, ini sangat sesuai dengan “karakteristik” DeepSeek.

Harga V4-Flash memasukkan 1 yuan, keluaran 2 yuan / juta token, setelah cache hit biaya input hanya 0,2 yuan; harga V4-Pro memasukkan 12 yuan, keluaran 24 yuan / juta token, biaya input cache hit 1 yuan, saat peluncuran memberikan diskon waktu terbatas 75%, berlaku hingga 5 Mei. Kedua model secara asli mendukung konteks sekitar satu juta token.

Akhir pekan ini, DeepSeek-V4-Pro melanjutkan promosi terbatas waktu, menurunkan harga menjadi 25%, biaya input cache hit lagi dipotong 10%. Seorang insinyur AI bercanda setengah serius, “Setelah akhir pekan, DeepSeek-V4-Pro hanya selisih 0,025 yuan dari gratis.”

Saat ini, sudah dua tahun berlalu sejak perang harga yang dimulai dengan DeepSeek V2 pada tahun 2024. Dalam dua tahun ini, biaya inferensi model besar mengalami penurunan eksponensial, dan dalam kerangka biaya efektif setelah mempertimbangkan cache hit dan faktor lainnya, penurunan kumulatif bahkan mencapai seratus kali lipat.

Namun hari ini, menurunkan harga memiliki arti yang lebih penting daripada sebelumnya. AI telah beralih ke paradigma Agen yang berfokus pada tugas kompleks jangka panjang, di balik satu tugas bisa ada puluhan, bahkan ratusan panggilan model.

Dalam konteks industri ini, peluncuran versi pratinjau DeepSeek V4 juga disertai dengan dua informasi penting. Pertama, konteks sekitar satu juta menjadi standar asli kedua model; kedua, menekankan harga cache, diskon tambahan. Gabungan harga input-output standar ditekan ke batas bawah dari model dengan spesifikasi yang sama, bertujuan untuk menekan total tagihan satu kali tugas Agen menjadi yang paling kompetitif.


Token sudah memiliki sistem harga baru

Melihat kembali penurunan harga tahun 2024, secara esensial adalah menggeser model besar dari “eksperimen mahal” menjadi “alat yang dapat digunakan”. Saat itu, berkat inovasi arsitektur yang meningkatkan efisiensi inferensi, harga panggilan model dari era GPT-4 yang berkisar 10-30 dolar AS per juta token, dengan cepat ditekan ke tingkat 1 dolar.

Gambar: Penurunan indeks harga token selama dua tahun terakhir secara eksponensial

Ini adalah bentuk “penurunan harga mutlak”: pengembang dapat memanggil model besar dengan biaya rendah, dan lapisan aplikasi mulai benar-benar terbuka. Tetapi pada tahap itu, harga masih terkait dengan “biaya satu kali panggilan”, token dipandang sebagai satuan penetapan harga yang seragam, dan jumlah panggilan serta biaya secara garis besar bersifat linier.

Dua tahun kemudian, struktur harga DeepSeek V4 juga berubah. Dengan masuknya mekanisme cache ke dalam sistem penagihan utama, token mulai dipisahkan menjadi dua kategori biaya: “perhitungan baru” dan “perhitungan ulang”. Dalam skenario dengan tingkat cache hit tinggi, harga input yang sama bisa turun hingga sepersepuluh bahkan lebih rendah. Harga dari harga statis berubah menjadi variabel yang sangat terkait dengan desain sistem.

Gambar: Token dipisahkan menjadi “perhitungan baru” dan “perhitungan ulang”

Jika hanya melihat harga label, V4 tetap mempertahankan strategi harga rendah yang konsisten dari DeepSeek. Di pasar domestik, model sekelas seperti Aliyun Tongyi, Zhipu GLM, Moonshade Kimi, harganya sekitar 1-4 yuan untuk input dan 4-12 yuan untuk output, sementara V4-Flash memasukkan 1 yuan dan keluaran 2 yuan, berada di 1/3 hingga 1/4 dari harga rata-rata industri.

Versi Pro dengan harga 12 yuan / 24 yuan mendekati model flagship, tetapi konteks sekitar satu juta adalah kemampuan default, bukan opsi tambahan. Di tingkat global, perbandingan menjadi lebih jelas, harga kira-kira hanya sepersepuluh hingga lima puluh dari beberapa pesaing. Misalnya, harga resmi GPT-5.5 adalah: input 5 dolar / juta token, cache input 0,5 dolar / juta token, output 30 dolar / juta token. Claude Opus 4.7 melanjutkan sistem harga Opus 4.6, kira-kira: input 5 dolar / juta token, output 25 dolar / juta token.

Meskipun model flagship luar negeri dalam hal batas kemampuan, ekosistem yang matang, dan efisiensi token tidak sepenuhnya dapat dibandingkan, harga bukan satu-satunya dimensi. Tetapi dalam satu rangkaian tugas Agen, perbedaan biaya panggilan langsung mempengaruhi kelayakan komersial. Produsen luar negeri juga menghadapi tekanan penetapan harga: Sam Altman pernah secara terbuka mengakui bahwa langganan ChatGPT Pro sedang merugi, dan Dario Amodei memperingatkan adanya “penetapan harga terlalu agresif” di industri. Pada tingkat tertentu, sistem harga mencerminkan kapasitas pasokan daya komputasi, amortisasi R&D, dan strategi pasar.

Inilah mengapa keunggulan harga kali ini lebih bermakna. Pada 2024, industri berfokus pada “apakah bisa digunakan”; tetapi dalam paradigma AI Agen yang berorientasi pada skala, pertanyaan yang lebih penting adalah “apakah bisa berjalan secara skala besar.”

Satu tugas Agen sering melibatkan puluhan hingga ratusan panggilan model, dengan banyak input berasal dari prompt sistem, skema alat, dan memori historis, yang sangat dapat digunakan kembali dan juga merupakan bagian yang paling rentan menyebabkan biaya “membengkak”.

Fokus utama DeepSeek V4 adalah mengurangi biaya bagian “perhitungan ulang” ini.


Gambar: DeepSeek V4 mengubah “biaya” menjadi variabel yang dapat dioptimalkan secara rekayasa. Di sisi kiri adalah penyesuaian kemampuan, di sisi kanan adalah tepi biaya. Dalam konteks sekitar satu juta, penggunaan daya inferensi dan cache secara signifikan menurun, sehingga tugas jangka panjang tidak lagi berkembang secara eksponensial. Ini adalah kekuatan pendorong utama di balik perang harga kali ini.

Dari evolusi harga produk sendiri, perubahan ini juga dapat dilihat secara logis. Generasi sebelumnya, V3.2, biaya inputnya 2 yuan (cache tidak hit), 0,2 yuan (cache hit), dan keluaran 3 yuan; sedangkan V4-Flash menurunkan input menjadi 1 yuan dan keluaran menjadi 2 yuan, perubahan paling langsung adalah “biaya input tidak hit dipotong setengah”. Dalam skenario Agen dengan banyak panggilan, biaya input kumulatif sering menjadi bagian terbesar, dan efek pengungkit dari penyesuaian ini jauh lebih besar daripada sekadar penurunan harga.

Versi Pro dengan harga 12 yuan / 24 yuan secara tampak lebih mahal satu tingkat dari Flash, tetapi dalam laporan teknis DeepSeek disebutkan, “Versi Pro terbatas oleh kapasitas daya komputasi kelas tinggi, dan setelah peluncuran massal node unggulan Ascend 950 di paruh kedua tahun ini, harga Pro akan turun secara signifikan.” Bisa dipahami bahwa harga saat ini mencerminkan kendala pasokan, bukan biaya riil.

Posisi kedua model juga sangat jelas: Flash ditujukan untuk tugas batch dengan concurrency tinggi dan latensi rendah, Pro untuk proses Agen yang kompleks, pembuatan kode rantai panjang, dan inferensi mendalam. Dari laporan teknis, DeepSeek telah mulai mengevaluasi kemampuan agen kode V4 dengan tugas pengembangan nyata, dan dalam evaluasi internal membandingkannya langsung dengan seri Claude.


“Penjual daging harga” di baliknya

Bagaimana DeepSeek bisa menurunkan harga?

Metode tradisional perhatian mekanisme dalam memproses teks panjang, jumlah perhitungan meningkat kuadrat dengan panjang urutan, misalnya, 1 juta token membutuhkan 64 kali lipat dari 128K. Inilah sebabnya “konteks satu juta” sulit benar-benar komersial, karena memori KV cache akan meningkat secara linier dengan panjang urutan, dan mencapai 1 juta memerlukan pengurangan paralelisme atau penambahan mesin berkali-kali, yang secara finansial tidak masuk akal.

Ini juga alasan mengapa produsen luar negeri umumnya menerapkan strategi “jendela pendek default, jendela panjang dengan biaya tambahan”, bahkan Anthropic memisahkan biaya untuk di atas 200K token.

Gambar: CSA (Compressed Sparse Attention) DeepSeek V4 melalui kompresi cache KV terlebih dahulu, lalu menggunakan Top-k untuk memilih konteks penting, hanya menghitung informasi terpenting, secara signifikan mengurangi daya komputasi dan penggunaan cache dalam skenario teks panjang.

Secara sederhana, solusi V4 adalah menggabungkan “kompresi” dan “sparse”. Pertama, mengompresi cache KV setiap m token menjadi satu entri kompresi (rasio kompresi CSA 4, rasio HCA 128), lalu setiap query hanya fokus pada top-k entri penting tersebut untuk perhitungan perhatian. Langkah pertama mengurangi penggunaan memori, langkah kedua mengurangi daya komputasi, sekaligus mengatasi dua bottleneck.


Gambar: HCA (Compressed Re-Compression Attention) DeepSeek V4 dengan mengompresi cache KV dari urutan yang lebih panjang menjadi representasi yang lebih sedikit, sambil mempertahankan informasi jendela lokal dan mengurangi biaya perhitungan dan penyimpanan, adalah jalur kunci penurunan biaya konteks satu juta.

Laporan teknis menunjukkan: dalam konteks 1 juta, FLOPs inferensi per token V4-Pro hanya 27% dari V3.2, penggunaan cache KV hanya 10%; V4-Flash lebih agresif, FLOPs 10% dari V3.2, cache KV 7%. Ditambah dengan kuantisasi FP4, optimizer Muon, kernel MegaMoE buatan sendiri, dan optimisasi infrastruktur lainnya, V4 mengurangi biaya dari pelatihan hingga inferensi secara menyeluruh.

Harga rendah adalah hasil alami dari arsitektur biaya. Seorang anggota inti perusahaan model besar domestik mengatakan kepada Tencent Tech: “Harga API model besar domestik (termasuk mereka sendiri) terutama didasarkan pada kemampuan biaya. Belum ada yang benar-benar ‘mengorbankan biaya’ demi harga. Jadi, keunggulan biaya dari dasar teknologi sangat penting.”

CTO Alibaba Cloud, Zhou Jingren, juga pernah menekankan: “Setiap penurunan harga adalah proses yang sangat serius, harus mempertimbangkan perkembangan industri secara keseluruhan, umpan balik pengembang, dan pengguna perusahaan, bukan sekadar perang harga.”


Mengapa penurunan harga kali ini lebih penting?

Dari sisi permintaan, saat ini lebih mendesak untuk secara sistematis menurunkan “harga”. Laporan Token Economics terbaru dari Deloitte memberi contoh AT&T: setelah memperkenalkan sistem Agen, konsumsi Token harian meningkat dari 8 miliar menjadi 27 miliar. Analisis dari Stevens Institute of Technology menunjukkan bahwa dalam dialog multi-putaran, ada jebakan “pertumbuhan kuadrat Token”: pada putaran ke-10, jumlah Token per panggilan bisa mencapai 7 kali lipat dari putaran pertama.

Harga model menentukan apakah sebuah Agen bisa berjalan secara komersial.

Majalah CIO dalam laporannya tiga minggu lalu mengutip pendapat CEO Addo AI, Ayesha Khanna: “Jika Anda menjalankan Agen berkelanjutan yang terhubung ke API model terbaru, dengan konsumsi Token tinggi, konteks panjang, inferensi multi-langkah, dan output ulang, ekonomi akan memburuk dengan cepat. Dalam beberapa kasus, biaya satu tugas bisa lebih mahal dari melakukan tugas tersebut secara manusia.” Ini adalah hambatan paling nyata dalam komersialisasi Agen saat ini, meskipun teknologinya berjalan, perhitungannya tidak mampu.

Melihat beberapa langkah V4 kali ini, hampir semuanya diarahkan untuk mengatasi hambatan industri ini: menjadikan konteks satu juta sebagai kemampuan default, menekan harga cache hit ke tingkat terendah industri, dan menyesuaikan dengan karakteristik penggunaan berulang prompt sistem dalam skenario Agen. Laporan teknis juga menyebutkan bahwa V4 secara lengkap mempertahankan seluruh konten reasoning dalam skenario panggilan alat (V3.2 akan membuangnya di awal setiap pesan pengguna baru), ini juga untuk memenuhi kebutuhan panggilan multi-putaran Agen.


Akankah V4 menurunkan seluruh garis biaya industri AI Agen?

Akhirnya, ada pertanyaan penting: apakah V4 bisa menekan seluruh garis biaya industri AI Agen? Mungkin situasinya jauh lebih kompleks kali ini.

Pertama, melihat apakah produsen lain akan mengikuti. Jika V4 memicu penurunan harga serupa secara bersamaan, kurva biaya industri akan benar-benar bergeser ke bawah. Tetapi seperti analisis di atas, harga model lebih ditentukan oleh struktur biaya, margin keuntungan produsen model dalam jangka pendek tidak banyak ruang untuk dikurangi, sehingga kemungkinan mengikuti penurunan harga terbatas.

Kedua, pasokan daya komputasi kelas tinggi. Seperti yang disebutkan dalam laporan teknis DeepSeek, kapasitas layanan V4-Pro saat ini terbatas. Apakah harga murah Pro bisa dipertahankan secara stabil tergantung pada kemajuan distribusi node unggulan Ascend 950 dan platform hardware domestik lainnya di paruh kedua tahun ini, serta kemajuan engineering DeepSeek di berbagai platform hardware.

Laporan teknis bagian 3.1 menyebutkan bahwa DeepSeek telah memverifikasi skema paralel ahli granular di platform GPU Nvidia dan NPU Huawei Ascend, ini adalah pertama kalinya DeepSeek menyertakan Ascend dan Nvidia dalam daftar verifikasi hardware, dan mencoba memisahkan jalur inferensi dari ketergantungan hardware tunggal. Jika terbukti efektif, ini akan memiliki nilai jangka panjang yang besar bagi industri model besar domestik.

Ketiga, apakah struktur Token dalam skenario Agen bisa dioptimalkan lebih jauh. Saat ini, Agen sangat boros Token, sebagian besar Token terbuang karena arsitektur Agen itu sendiri. Selain penurunan harga model, cara penggunaan Token dalam Agen juga berbeda. Bahkan jika V4 menurunkan harga per token ke tingkat terendah, desain Agen yang buruk tetap bisa membuat tagihan membengkak. Inilah mengapa sistem Harness yang sedang populer sangat penting.

DeepSeek V4 memang menurunkan harga di tabel harga, menjadikan konteks satu juta sebagai kemampuan default, dan harga keluaran bisa di bawah satu dolar per juta token, dan ini didasarkan pada arsitektur yang solid tanpa bergantung subsidi.

Namun, menurunkan biaya seluruh industri kali ini tidak semudah itu, karena menghadapi tantangan sistemik yang lebih kompleks.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan