Google Menemukan Cara Membuat AI Lokal Hingga 3x Lebih Cepat—Tanpa Perangkat Keras Baru Diperlukan

Singkatnya

  • Google merilis Draft Multi-Token Prediction (MTP) untuk Gemma 4, memberikan percepatan hingga 3x saat inferensi tanpa penurunan kualitas output.
  • Teknik ini—yang disebut speculative decoding—menggunakan model “drafter” ringan untuk memprediksi beberapa token sekaligus, yang kemudian diverifikasi oleh model utama secara paralel, melewati hambatan satu token demi satu token.
  • Draft MTP tersedia di Hugging Face, Kaggle, dan Ollama dengan lisensi Apache 2.0 yang sama seperti Gemma 4, dan bekerja dengan alat seperti vLLM, MLX, dan SGLang.

Menjalankan model AI di komputer sendiri itu hebat—sampai suatu saat tidak lagi. Janji utamanya adalah privasi, tanpa biaya langganan, dan tanpa data keluar dari mesin Anda. Realitanya, bagi kebanyakan orang, adalah menonton kursor berkedip selama lima detik di antara kalimat. Hambatan itu bernama: kecepatan inferensi. Dan itu tidak ada hubungannya dengan seberapa pintar model tersebut. Ini adalah masalah perangkat keras. Model AI standar menghasilkan teks satu fragmen kata—yang disebut token—sekaligus. Perangkat keras harus memindahkan miliaran parameter dari memori ke unit komputasinya hanya untuk menghasilkan satu token saja. Itu dirancang lambat. Pada perangkat keras konsumen, ini menyakitkan.

Solusi sementara yang paling banyak digunakan orang adalah menjalankan model yang lebih kecil dan lemah—atau versi yang sangat dikompresi, disebut model kuantisasi, yang mengorbankan sebagian kualitas demi kecepatan. Kedua solusi ini tidak ideal. Anda mendapatkan sesuatu yang berjalan, tetapi bukan model yang sebenarnya Anda inginkan. Sekarang Google punya ide berbeda. Perusahaan baru saja merilis Draft Multi-Token Prediction (MTP) untuk keluarga model terbuka Gemma 4—teknik yang dapat memberikan percepatan hingga 3x tanpa menyentuh kualitas atau kemampuan penalaran model sama sekali.

Pendekatannya disebut speculative decoding, dan sudah ada sebagai konsep selama bertahun-tahun. Peneliti Google menerbitkan makalah dasar tersebut pada tahun 2022. Ide ini tidak menjadi arus utama sampai sekarang karena membutuhkan arsitektur yang tepat agar bisa bekerja secara skala besar.

Berikut versi singkat cara kerjanya. Alih-alih membuat model besar dan kuat melakukan semua pekerjaan sendiri, Anda pasangkan dengan model “drafter” kecil. Drafter ini cepat dan murah—memprediksi beberapa token sekaligus dalam waktu kurang dari yang dibutuhkan model utama untuk menghasilkan satu token. Kemudian model besar memeriksa semua tebakan tersebut dalam satu kali pass. Jika tebakan itu benar, maka Anda mendapatkan seluruh rangkaian untuk harga satu kali forward pass. Menurut Google, “jika model target setuju dengan draft, ia menerima seluruh rangkaian dalam satu forward pass—dan bahkan menghasilkan token tambahan sendiri dalam prosesnya.” Tidak ada yang dikorbankan: Model besar—misalnya versi 31B Gemma 4 yang padat—masih memverifikasi setiap token, dan kualitas outputnya sama persis. Anda hanya memanfaatkan kekuatan komputasi yang idle yang selama ini tidak digunakan selama bagian yang lambat.  Google mengatakan model drafter berbagi cache KV dari model target—struktur memori yang menyimpan konteks yang sudah diproses—jadi mereka tidak membuang waktu menghitung ulang hal-hal yang sudah diketahui oleh model yang lebih besar. Untuk model edge yang lebih kecil yang dirancang untuk ponsel dan Raspberry Pi, tim bahkan membangun teknik pengelompokan yang efisien untuk memotong waktu generasi lebih jauh. Ini bukan satu-satunya upaya dunia AI dalam memparallelkan pembuatan teks. Model bahasa berbasis difusi—seperti Mercury dari Inception Labs—mencoba pendekatan yang sama sekali berbeda: Alih-alih memprediksi satu token sekaligus, mereka mulai dengan noise dan secara iteratif menyempurnakan seluruh output. Itu cepat di atas kertas, tetapi model LLM difusi kesulitan menyamai kualitas model transformer tradisional, sehingga lebih menjadi penasaran riset daripada alat praktis. Speculative decoding berbeda karena tidak mengubah model dasar sama sekali. Ini adalah optimisasi penyajian, bukan penggantian arsitektur. Gemma 4 yang sudah Anda jalankan tetap sama, hanya menjadi lebih cepat. Keuntungan praktisnya nyata. Model Gemma 4 26B yang berjalan di GPU desktop Nvidia RTX Pro 6000 mendapatkan sekitar dua kali lipat token per detik dengan fitur MTP drafter diaktifkan, menurut tolok ukur Google sendiri. Di Apple Silicon, batch size 4 sampai 8 permintaan membuka sekitar 2,2x percepatan. Tidak sampai 3x maksimum di setiap skenario, tetapi tetap perbedaan berarti antara “hampir tidak bisa digunakan” dan “benar-benar cukup cepat untuk dipakai.”

Konteksnya penting di sini. Ketika model China DeepSeek mengejutkan pasar pada Januari 2025—menghapus $600 miliar dari kapitalisasi pasar Nvidia dalam satu hari—pelajaran utamanya adalah bahwa peningkatan efisiensi bisa lebih berdampak daripada sekadar menambah daya komputasi mentah. Menjalankan lebih cerdas lebih baik daripada membuang lebih banyak perangkat keras ke masalah. Draft MTP Google adalah langkah lain ke arah itu, tetapi ditujukan langsung ke pasar konsumen. Seluruh industri AI saat ini adalah sebuah segitiga yang mempertimbangkan inferensi, pelatihan, dan memori. Setiap terobosan di salah satu area cenderung meningkatkan atau mengejutkan seluruh ekosistem. Pendekatan pelatihan DeepSeek (mencapai model kuat dengan perangkat keras yang lebih rendah) adalah salah satu contohnya, sementara makalah Google tentang TurboQuant (mengurangi memori AI tanpa kehilangan kualitas) adalah contoh lainnya. Keduanya menyebabkan gejolak pasar saat perusahaan berusaha mencari tahu apa yang harus dilakukan. Google mengatakan draft ini membuka “responsivitas yang lebih baik: secara drastis mengurangi latensi untuk chat hampir waktu nyata, aplikasi suara imersif, dan alur kerja agenik”—jenis tugas yang membutuhkan latensi rendah agar terasa berguna sama sekali. Kasus penggunaan menjadi jelas dengan cepat: Asisten pengkodean lokal yang tidak lag; antarmuka suara yang merespons sebelum Anda lupa apa yang Anda tanyakan; alur kerja agenik yang tidak membuat Anda menunggu tiga detik antar langkah. Semua ini, di perangkat keras yang sudah Anda miliki. Draft MTP tersedia sekarang di Hugging Face, Kaggle, dan Ollama, di bawah lisensi Apache 2.0. Mereka bekerja dengan vLLM, MLX, SGLang, dan Hugging Face Transformers langsung dari kotak.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan