Cursor เปิดเผยวิธีการฝึก "Self-bootstrapping" : ใช้ Composer เก่าในการสร้างสภาพแวดล้อมให้โมเดลใหม่, Terminal-Bench เพิ่มขึ้น 14 จุด

BlockBeatNews

จากการตรวจสอบ Beating การตรวจจับ, Cursor ได้เปิดเผยเทคนิคการฝึกโมเดลชุด Composer: ใช้โมเดลรุ่นก่อนหน้าเพื่อสร้างสภาพแวดล้อมการทำงานอัตโนมัติสำหรับการเรียนรู้เสริม (RL) ของรุ่นถัดไปอย่างง่ายดาย
ในระหว่างการฝึก Composer 2, Cursor ใช้ Composer 1.5 เพื่อทำงานนี้ เรียกว่า autoinstall

การฝึก RL ต้องการสภาพแวดล้อมโค้ดที่สามารถรันได้ หากสภาพแวดล้อมไม่ดี โมเดลจะเสียเวลาไปกับการแก้บั๊กและไม่ได้เรียนรู้สิ่งใหม่ ๆ; ในกรณีสุดขีด สภาพแวดล้อมไม่สามารถรันได้เลย การใช้พลังการคำนวณทั้งรอบก็สูญเปล่า autoinstall แก้ปัญหานี้ด้วยสองขั้นตอน: ขั้นตอนแรก ตัวแทน (agent) อ่านเอกสารและการตั้งค่าของคลังโค้ด แล้วเสนอคำสั่งตรวจสอบ 10 รายการพร้อมผลลัพธ์ที่คาดหวัง; ขั้นตอนที่สอง ตัวแทนอีกคนรับคำสั่ง 3 รายการจากนั้นตั้งค่าสภาพแวดล้อมใหม่ตั้งแต่ต้นจนคำสั่งรันได้สำเร็จ ขั้นตอนที่สองสามารถลองใหม่ได้สูงสุด 5 ครั้ง หากล้มเหลวทั้งหมดจะละทิ้งสภาพแวดล้อมนั้น

ในระหว่างการตั้งค่าสภาพแวดล้อม ตัวแทนจะเติมเต็ม dependencies ที่ขาดหายไปเอง: สร้างตารางฐานข้อมูลปลอม, สร้างการตั้งค่า MinIO แทน S3, เริ่มคอนเทนเนอร์ Docker เพื่อทำหน้าที่เป็นบริการ sidecar, หรือแม้แต่สร้างภาพ placeholder บทความนี้ใช้โปรเจกต์บล็อกเชน celo-org/celo-monorepo เป็นตัวอย่างแสดงกระบวนการทั้งหมด ตัวแทนหลังจากล้มเหลวในการตั้งค่าสภาพแวดล้อมในรอบแรก ก็สร้าง mock ผู้ใช้เพื่อข้ามการตรวจสอบสิทธิ์ในรอบที่สอง สุดท้ายก็สามารถรันการทดสอบได้สำเร็จ

Composer 2 ทำคะแนน 61.7% ใน Terminal-Bench (เกณฑ์วัดความสามารถในการสร้างสภาพแวดล้อมสำหรับโมเดล) สูงกว่า Composer 1.5 ที่ได้ 47.9% เกือบ 14 จุดเปอร์เซ็นต์ Cursor ระบุแผนในอนาคตที่จะให้เวอร์ชันเก่า Composer เข้าร่วมในขั้นตอนการฝึกเพิ่มเติม รวมถึงการเตรียมข้อมูล การจัดการรัน และการปรับแต่งสถาปัตยกรรม

news.article.disclaimer

btc.bar.articles

สหภาพยุโรปห้ามสื่อลามกปลอมแปลงด้วย AI แบบ deepfake ในวันที่ 7 พฤษภาคม

ตามรายงานของสำนักข่าวซินหัว เมื่อวันที่ 7 พฤษภาคม สมาชิกสภายุโรปและรัฐสมาชิกได้บรรลุฉันทามติในการห้ามระบบปัญญาประดิษฐ์จากการสร้างเนื้อหาลามกเชิงลึกปลอม (deepfake pornographic) ข้อห้ามดังกล่าวจะถูกนำไปรวมไว้ในร่างแก้ไขพระราชบัญญัติปัญญาประดิษฐ์ปี 2024 สภายุโรป

GateNews8 นาที ที่แล้ว

Tether เปิดตัวโมเดล AI ทางการแพทย์ QVAC MedPsy และทำคะแนนได้ 62.62 จากเวอร์ชันที่มีพารามิเตอร์ 17 พันล้านพารามิเตอร์

ตามรายงานของ Odaily กลุ่มวิจัย Tether AI ปล่อยตัว QVAC MedPsy ซึ่งเป็นโมเดล AI ทางการแพทย์ที่ออกแบบให้ทำงานแบบออฟไลน์บนสมาร์ทโฟนและอุปกรณ์สวมใส่โดยไม่ต้องพึ่งพาระบบคลาวด์ เวอร์ชัน 1.7 พันล้านพารามิเตอร์ทำคะแนนได้ 62.62 จากเกณฑ์การประเมินทางการแพทย์ 7 รายการ โดยทำได้ดีกว่า MedGemma-1.5-4B ของ Google อยู่ 11.42 poi

GateNews28 นาที ที่แล้ว

B.AI API เปิดตัวโมเดลใหม่ 4 รุ่น รวมถึง GPT-5.5 Instant ภายใน 48 ชั่วโมงหลังการเปิดตัวของ OpenAI

B.AI API เปิดตัวโมเดลใหม่ 4 รุ่น ได้แก่ GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 และ GLM-5.1 โดย GPT-5.5 Instant ได้ดำเนินการปรับใช้ระบบพื้นฐานและรวมอินเทอร์เฟซให้เสร็จภายใน 48 ชั่วโมงหลังการเปิดตัวของ OpenAI ทำให้สามารถเข้าถึงได้แบบไม่ต้องรอดีเลย์ถึง

GateNews33 นาที ที่แล้ว

โมเดล AI ด้านการแพทย์ของ Tether มูลค่า 1.7B ทำผลงานเหนือคู่แข่งที่ใหญ่กว่า 16 เท่าในวันนี้

ตามทีมวิจัย AI ของ Tether บริษัทได้เปิดตัวโมเดลภาษาทางการแพทย์ซีรีส์ QVAC MedPsy วันนี้ โดยออกแบบมาเพื่อการรันแบบออฟไลน์ในเครื่องสำหรับสมาร์ทโฟนและอุปกรณ์สวมใส่ โดยไม่ต้องพึ่งพาระบบคลาวด์ เวอร์ชันที่มีพารามิเตอร์ 1.7B ทำคะแนนได้ 62.62 จากการทดสอบเกณฑ์ทางการแพทย์ 7 รายการ ซึ่งสูงกว่า Google MedGemma-4B

GateNews44 นาที ที่แล้ว

การประเมินมูลค่าก่อนเข้าตลาด (Pre-IPO) ของ Anthropic พุ่งแตะ 1.2 ล้านล้านดอลลาร์ แซง OpenAI ไปแล้ว 20%

ตามรายงานของ Odaily มูลค่าที่คาดการณ์โดยปริยายของ Anthropic ในตลาดก่อนเข้าตลาดหลักทรัพย์แบบใช้บล็อกเชนแตะ 1.2 ล้านล้านดอลลาร์สหรัฐ แซงหน้า OpenAI อยู่ราว 20% หากบริษัทเข้าจดทะเบียนในตลาดหลักทรัพย์ด้วยมูลค่านี้ ก็จะติดอันดับบริษัทที่จดทะเบียนในตลาดหลักทรัพย์ขนาดใหญ่ที่สุดทั่วโลกเป็นอันดับ 11 ตามมูลค่าหลักทรัพย์ตามราคาตลาด โดยอยู่หลัง Apple,

GateNews49 นาที ที่แล้ว

ตลาดหุ้นเกาหลีใต้พุ่งเร็วกว่า ตลาดโลก ท่ามกลางกระแสบูม AI

ตลาดหุ้นเกาหลีใต้กำลังทำสถิติปรับขึ้นอย่างไม่เคยเกิดขึ้นมาก่อน โดยแรงหนุนมาจากหุ้นเซมิคอนดักเตอร์ที่เกี่ยวข้องกับปัญญาประดิษฐ์ โดยดัชนี KOSPI ปรับขึ้น 78% ตั้งแต่ต้นปี ซึ่งทำผลงานได้ดีกว่าตลาดหลักอื่น ๆ ทั่วโลกทั้งหมด ตามข้อมูลของ Financial Modeling Prep ที่ถูกอ้างในบทวิเคราะห์ของ Axios AI

CryptoFrontier57 นาที ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น