Perplexity เปิดเผย Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4

ปิดข่าว Gate ประจำวันที่ 23 เมษายน — ทีมวิจัยของ Perplexity เผยแพร่บทความทางเทคนิคที่อธิบายระเบียบวิธีหลังการฝึกอบรมสำหรับตัวแทนค้นหาเว็บ แนวทางดังกล่าวใช้โมเดลเปิดซอร์ส Qwen3.5 จำนวน 2 ตัว (Qwen3.5-122B-A10B และ Qwen3.5-397B-A17B) และใช้ไปป์ไลน์แบบ 2 ขั้นตอน ได้แก่ การฝึกแบบมีผู้สอน (SFT) เพื่อสร้างความสามารถในการทำตามคำสั่งและความสอดคล้องด้านภาษา จากนั้นตามด้วยการเรียนรู้แบบเสริมแรงออนไลน์ (RL) เพื่อเพิ่มประสิทธิภาพด้านความถูกต้องของการค้นหาและประสิทธิภาพการใช้เครื่องมือ

ขั้น RL ใช้ทั้งอัลกอริทึม GRPO และแหล่งข้อมูล 2 แหล่ง: ชุดข้อมูลคำถาม-คำตอบแบบหลายขั้นตอนที่ตรวจสอบได้ซึ่งเป็นกรรมสิทธิ์ โดยสร้างจากคำถามเริ่มต้นภายในที่ต้องใช้การให้เหตุผล 2–4 ช่วง และมีการยืนยันด้วยตัวแก้หลายตัว และข้อมูลการสนทนาทั่วไปที่อิงตามเกณฑ์การให้คะแนน ซึ่งจะแปลงข้อกำหนดการนำไปใช้งานให้เป็นเงื่อนไขย่อยที่ตรวจสอบได้อย่างเป็นรูปธรรม เพื่อป้องกันการเสื่อมพฤติกรรมจาก SFT

การออกแบบรางวัลใช้การรวมแบบมีประตูควบคุม—คะแนนความพึงพอใจจะมีส่วนร่วมก็ต่อเมื่อได้ความถูกต้องตามเกณฑ์พื้นฐาน (การจับคู่คำถาม-คำตอบ หรือบรรลุเกณฑ์ทั้งหมดตามรูบริก) เพื่อป้องกันสัญญาณความพึงพอใจที่สูงไม่ให้บดบังความผิดพลาดด้านข้อเท็จจริง การลงโทษด้านประสิทธิภาพใช้การยึดตามกลุ่มภายใน โดยใช้การลงโทษแบบเรียบต่อการเรียกใช้เครื่องมือและความยาวการสร้างที่เกินกว่าค่าพื้นฐานของคำตอบที่ถูกต้องในกลุ่มเดียวกัน

การประเมินแสดงว่า Qwen3.5-397B-SFT-RL ให้ประสิทธิภาพระดับดีที่สุดในกลุ่มเมื่อเทียบกันในชุดการทดสอบการค้นหา ใน FRAMES ทำได้ 57.3% ของความถูกต้องเมื่อเรียกเครื่องมือเพียงครั้งเดียว ซึ่งเหนือกว่า GPT-5.4 ด้วยส่วนต่าง 5.7 จุดเปอร์เซ็นต์ และเหนือกว่า Claude Sonnet 4.6 ด้วยส่วนต่าง 4.7 จุดเปอร์เซ็นต์ ภายใต้งบประมาณปานกลาง (การเรียกเครื่องมือสี่ครั้ง) จะได้ความถูกต้อง 73.9% ที่ $0.02 ต่อคำถาม เทียบกับ GPT-5.4 ที่ได้ 67.8% ที่ $0.085 ต่อคำถาม และ Sonnet 4.6 ที่ได้ 62.4% ที่ $0.153 ต่อคำถาม ตัวเลขต้นทุนอ้างอิงจากราคาต่อสาธารณะของแต่ละผู้ให้บริการ และไม่รวมการปรับปรุงด้านการแคช

news.article.disclaimer

btc.bar.articles

ซีอีโอกูเกิล พิชัย เปิดเผยว่าใช้ Gemini AI เพื่อทำความเข้าใจความเป็นมนุษย์และสร้างการสื่อสารที่จริงใจยิ่งขึ้น

พิเชย์กล่าวว่า ก่อนการประชุมสำคัญ เขาใช้มุมมองของ Gemini ในการวิเคราะห์และคาดการณ์ความคิดของอีกฝ่าย เพื่อเพิ่มความเข้าใจและการสื่อสารที่จริงใจมากขึ้น ทั้งนี้เอเจนต์ AI ยังสามารถจัดระเบียบอีเมล การนัดหมาย และสรุปให้อัตโนมัติ ทำให้งานประจำวันคล่องตัวและมีประสิทธิภาพขึ้น นอกจากนี้แพลตฟอร์ม AI ที่ยึดการร่วมสร้างแบบเปิดเป็นศูนย์กลางกำลังได้รับความนิยม โดยเทคโนโลยีโอเพนซอร์สอย่าง Gemini 4 ช่วยลดอุปสรรค ขณะเดียวกันยังเน้นการสร้างกรอบกำกับดูแล AI ซึ่งภาครัฐและสังคมต้องมีส่วนร่วมเพื่อรับมือกับความท้าทายด้านความมั่นคงไซเบอร์ ดีพเฟก และความยั่งยืน เป็นต้น

ChainNewsAbmedia1 ชั่วโมง ที่แล้ว

Oobit เปิดตัว AI Agent Cards ที่รองรับ Visa ในวันพฤหัสบดี ช่วยให้ใช้จ่าย USDT ได้โดยไม่ต้องแปลงเป็นเงินตรา Fiat

ตามรายงานของ The Block สตาร์ทอัพกระเป๋าเงินที่หนุนโดย Tether อย่าง Oobit เปิดตัว AI Agent Cards ในวันพฤหัสบดี ช่วยให้บอทแบบอัตโนมัติสามารถทำการซื้อโดยใช้ยอดคงเหลือ USDT ได้ โดยไม่ต้องแปลงเป็นเงินคำสั่งอื่น (ฟีแอต) และไม่ต้องเข้าถึงข้อมูลรับรองบัตรเครดิตขององค์กรโดยตรง การ์ดที่รองรับโดย Visa ใช้งานได้ออนไลน์ทุกที่ที่ Visa เข้าถึง

GateNews2 ชั่วโมง ที่แล้ว

ChimpX AI ระดมทุน 2.8 ล้านดอลลาร์ในรอบเมล็ดพันธุ์ โดยมี Waterdrip Capital และ MetaLabs Ventures เป็นผู้นำ

ChimpX AI ประกาศปิดรอบเมล็ดพันธุ์ (seed round) มูลค่า 2.8 ล้านดอลลาร์ แล้วในวันนี้ เพื่อเร่งการพัฒนา Mojo AI ซึ่งเป็นเอเจนต์ด้านการดำเนินการ (execution agent) ที่แปลงเจตนาระบุเป็นภาษาอังกฤษล้วนให้กลายเป็นธุรกรรม DeFi บนเชน (on-chain) บน Solana โดยรอบนี้นำโดย Waterdrip

GateNews3 ชั่วโมง ที่แล้ว

CEX รายใหญ่เปิดตัวโปรโตคอลชำระเงินสำหรับเอเจนต์ในวันที่ 29 เมษายน โดยรองรับธุรกรรมข้ามสายโซ่ที่ขับเคลื่อนด้วย AI

ตามประกาศล่าสุด การแลกเปลี่ยนสกุลเงินดิจิทัลชั้นนำได้เปิดตัว Agent Payments Protocol เมื่อวันที่ 29 เมษายน ซึ่งเป็นมาตรฐานเปิดที่ทำให้เอเจนต์ปัญญาประดิษฐ์สามารถดำเนินธุรกรรมทางธุรกิจแบบครบวงจรข้ามเครือข่ายบล็อกเชนหลายแห่งโดยไม่ต้องมีการแทรกแซงจากมนุษย์ โปรโตคอล

GateNews4 ชั่วโมง ที่แล้ว

Walrus เปิดตัว MemWal SDK สำหรับหน่วยความจำของ AI Agent

Walrus ได้เปิดตัว MemWal ซึ่งเป็น SDK ที่ออกแบบมาเพื่อแก้ข้อจำกัดของหน่วยความจำเชิงเอเจนต์ ด้วยการนำความสามารถในการตรวจสอบได้ ความพร้อมใช้งาน ความพกพา และการแชร์ได้ มาสู่การที่ AI agents จัดเก็บและเข้าถึงข้อมูล ตามที่ Abinhav Garg ผู้จัดการผลิตภัณฑ์ของ Mysten Labs Group กล่าว หน่วยความจำที่ตรวจสอบได้และพกพาได้

CryptoFrontier4 ชั่วโมง ที่แล้ว

Oobit เปิดตัวบัตร Visa สำหรับเอเจนต์ AI รองรับการใช้จ่าย USDT โดยตรงในสหรัฐฯ

ตามรายงานของ The Block บริษัทสตาร์ทอัพกระเป๋าเงิน Oobit ที่หนุนด้วย Tether ได้เปิดตัว “Agent Cards” แบบเสมือนในวันนี้ ซึ่งช่วยให้อินเทลลิเจนซ์เอเจนต์ใช้จ่าย USDT ได้โดยตรงที่ร้านค้าที่รองรับโดย Visa โดยไม่ต้องมีการแปลงสกุลเงินหรือขออนุมัติรายธุรกรรม แต่ละการ์ดจะถูกกำหนดให้กับเอเจนต์เพียง 1 ราย และมีวงเงินใช้จ่าย

GateNews8 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น