Zhipu GLM-5.2 Mengungguli Benchmark Open-Source DeepSWE Dengan Tingkat Keberhasilan 44%, Mengungguli Model Closed-Source Arus Utama

Menurut Beating (akun pemantauan), model open-source GLM-5.2 dari Zhipu AI meraih tingkat keberhasilan tertinggi di antara model open-source pada benchmark DeepSWE untuk tugas rekayasa perangkat lunak yang kompleks, dengan tingkat keberhasilan one-shot sebesar 44% pada intensitas penalaran maksimum. Ini mengungguli Kimi K2.7 Code sebesar 31% dengan selisih 13 poin persentase.

Dengan biaya $3,92 per tugas, GLM-5.2 mengungguli performa beberapa model closed-source arus utama di bawah konfigurasi penalaran tertentu, termasuk Claude Sonnet 4.6 [high] pada 30%, Gemini 3.5 Flash [medium] pada 37%, dan Claude Opus 4.8 [low] pada 41%.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar