GPT-5.5 Kembali ke Ujung Terdepan dalam Coding, Tapi OpenAI Mengganti Benchmark Setelah Kalah dari Opus 4.7

Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode “Spud” dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5.

Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat.

Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut “Expert-SWE.” Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos (77.8%) yang belum dirilis Anthropic.

Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi.

DeepSeek V4 dinilai sebagai “mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin,” dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa “Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi,” dengan komentar bahwa “Claude menang melawan model Tionghoa di bahasa aslinya.”

Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan “biaya per tugas” bukan “biaya per token.” Harga GPT-5.5 dua kali lipat dari GPT-5.4 (input $5, output $30 per million tokens), tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

OpenAI Menggalang $4 Miliar untuk Usaha Patungan Penerapan, Senilai 10 Miliar Dolar AS

Menurut BlockBeats, pada 4 Mei, OpenAI menghimpun lebih dari $4 miliar untuk mendirikan perusahaan patungan baru yang berfokus membantu perusahaan mengadopsi perangkat lunak kecerdasan buatannya. Ventura tersebut, bernama The Deployment Company, didukung oleh 19 investor termasuk TPG Inc., Brookfield Asset Management,

GateNews30menit yang lalu

Mengapa sebagian orang merasa AI akan mengubah dunia, sementara yang lain menganggapnya biasa saja? Dua diagnosa dari Karpathy

Karpathy mengatakan, kesenjangan persepsi AI berasal dari dua diagnosis: 1) hanya pernah memakai model gratis/model versi lama, sehingga tidak bisa mencerminkan kemampuan model agentic yang paling mutakhir; 2) peningkatan kemampuan baru tampak signifikan di bidang yang sangat teknis, dan juga bersifat tidak simetris. Hal ini membuat pengguna yang membayar dan pembaca umum melihat fenomena yang berbeda, sehingga menimbulkan kesalahpahaman timbal balik dalam dunia paralel. Pelajaran bagi pembaca Taiwan adalah, hanya dengan benar-benar menggunakan model paling mutakhir untuk menyelesaikan tugas produksi, serta memverifikasi dasar penilaiannya, kita bisa menghindari terseret oleh mitos yang disebarkan media.

ChainNewsAbmedia32menit yang lalu

Applied Digital Mengamankan Pembiayaan Jembatan Senilai 300 Juta Dolar AS yang Dipimpin Goldman Sachs untuk Pusat Data AI

Menurut Globenewswire, Applied Digital mengamankan pembiayaan bridge senior secured senilai 300 juta dolar AS yang dipimpin Goldman Sachs pada 4 Mei untuk mempercepat pengembangan pusat data AI-nya. Pembiayaan tersebut dijaminkan dengan aset proyek, dapat dilunasi lebih awal tanpa penalti, dan perusahaan berencana untuk melanjutkan

GateNews32menit yang lalu

Karpathy「讓 LLM 反論自己」: metode 4 langkah untuk melawan bias berpikir dengan AI

Artikel ini merangkum metode empat langkah Andrej Karpathy untuk “membuat LLM membantah argumennya sendiri”: pertama, gunakan LLM untuk menyempurnakan draf awal; kedua, buka percakapan baru dan minta LLM mengajukan argumen pihak lawan beserta bukti; ketiga, tulis menjadi esai bantahan yang lengkap; terakhir, bandingkan kedua belah pihak dan bukti yang dapat diverifikasi, lalu biarkan manusia yang menilai. Ingatkan bahwa LLM berisiko sycophancy—jangan menganggap persetujuan sebagai kebenaran; anggap saja sebagai mesin pembuat argumen, bukan hakim yang memutuskan kesimpulan. Metode ini juga bisa dilakukan dengan membuat dua LLM saling berdebat untuk mengurangi bias. Metode ini sangat bernilai untuk pembuatan konten pada tahun 2026, karena dapat meningkatkan kedalaman kognitif dan mengurangi homogenitas.

ChainNewsAbmedia37menit yang lalu

Sam Altman, Dario Amodei sama-sama sangat menjengkelkan! Narasi kiamat AI dan rasa relatif yang terampas membuat masyarakat AS tidak suka terhadap AI

Podcast terkenal dari Silicon Valley《All-In Podcast》membahas industri AI, memunculkan sebuah pengamatan yang cukup tajam: sikap masyarakat AS terhadap AI sedang beralih menjadi negatif, dan sasaran paling konkret dari luapan emosi tersebut adalah pusat data yang tengah dikebut oleh perusahaan-perusahaan AI di seluruh negeri. Rasa tidak suka ini bisa berasal dari berbagai hal, termasuk ramalan kiamat AI, ketakutan akan pengangguran, atau sebuah ketidakpuasan yang lebih mendalam: inovasi teknologi gelombang baru sepertinya lagi-lagi hanya membuat segelintir orang menjadi kaya raya, sementara kehidupan kebanyakan orang tidak menunjukkan perbaikan yang nyata. Pemerintah daerah di AS sudah membatalkan kasus pembangunan pusat data Chamath Palihapitiya mengatakan dalam acara tersebut bahwa masalah yang dihadapi industri AI saat ini bukan hanya persaingan model, belanja modal, atau kekurangan daya komputasi, melainkan “masyarakat AS secara keseluruhan makin lama makin tidak suka dengan urusan AI.” Ia menambahkan bahwa sumber dari ketidaksukaan tersebut bisa termasuk AI

ChainNewsAbmedia2jam yang lalu

Pertanyaan Komunitas tentang Bias Ideologis dalam Model AI Arus Utama pada 4 Mei

Menurut BlockBeats, pada 4 Mei, pengguna komunitas AI X Freeze mempertanyakan apakah model AI arus utama termasuk ChatGPT, Claude, dan Gemini menunjukkan bias yang sistematis dengan menjadi kurang selaras dengan posisi konservatif pada isu-isu seperti gender, imigrasi, dan kejahatan. Pengguna tersebut menyarankan bahwa sebagai AI

GateNews3jam yang lalu
Komentar
0/400
Tidak ada komentar