อ้างอิงจาก B.AI เมื่อวันที่ 8 พฤษภาคม แพลตฟอร์มรายงานว่า “การเรียก API routing” คิดเป็น 90.6% ของปฏิสัมพันธ์ทั้งหมด ขณะที่ผู้ใช้แบบชำระเงินคิดเป็น 95.1% ของฐานผู้ใช้ โดยโมเดลตระกูล Claude เป็นผู้นำด้วย 35.6% ของการเรียก API ครองทั้งงานด้านการให้เหตุผลที่ซับซ้อนและงานที่ต้องใช้บริบทยาว ส่วน DeepSeek-V4-Flash และ GPT-5.5 แสดงการเติบโตที่แข็งแกร่งในสถานการณ์ที่ต้องรองรับความพร้อมกันสูงและมีความหน่วงต่ำ
btc.bar.articles
Anthropic ตัดอัตราการเจลเบรกของ Claude เหลือ 0% ด้วยวิธีการฝึกการจัดแนวรูปแบบใหม่
เมื่อไม่นานมานี้ Anthropic ได้เผยแพร่งานวิจัยด้านการจัดตำแหน่ง (alignment) ซึ่งระบุถึงกลยุทธ์การฝึกที่ช่วยกำจัดความไม่สอดคล้องของเอเจนต์ (agent misalignment) ใน Claude 4.5 และโมเดลรุ่นถัดไป โดยลดพฤติกรรมลักษณะกรรโชกให้เหลือ 0% ในการทดสอบ ทีมงานพบว่าการสาธิตพฤติกรรมแบบเดิมเพียงอย่างเดียวไม่มีประสิทธิผลพอ ส่งผลให้อัตราความล้มเหลวลดลงเพียงจาก 22% เหลือ 15% เท่านั้น แนวทางทางเลือกอีก 3 แบบกลับได้ผลดีกว่ามาก ได้แก่ ชุดข้อมูล “difficult advice” ที่ให้ Claude ทำหน้าที่เป็นที่ปรึกษาในประเด็นจริยธรรม ทำใ
GateNews20 นาที ที่แล้ว
MiniMax สแกนโทเคน 200K ตรวจพบการเสื่อมสภาพ 4.9% ในโมเดลซีรีส์ M2
ตามบล็อกเทคนิคของ MiniMax บริษัทพบการเสื่อมสภาพของโทเค็นอย่างมีนัยสำคัญในโมเดลซีรีส์ M2 ผ่านการสแกนพจนานุกรมแบบเต็ม พบว่าโทเค็นประมาณ 4.9% จากทั้งหมด 200,000 โทเค็นมีประสิทธิภาพลดลงอย่างชัดเจน โดยโทเค็นภาษาญี่ปุ่นได้รับผลกระทบหนักสุดที่ 29.7% เมื่อเทียบกับเกาหลี (3.3%), รัสเซีย (3.7%), จีน (3.9%) และอังกฤษ (3.5%) การเสื่อมสภาพนี้เกิดจากโทเค็นที่มีความถี่ต่ำถูกดันไปในทิศทางพื้นที่เวกเตอร์ที่ไม่ถูกต้องระหว่างการเทรนหลังการฝึก ซึ่งโทเค็นที่มีความถี่สูงอย่างตัวทำเครื่องหมาย toolcall จะอัปเดตพารามิเต
GateNews36 นาที ที่แล้ว
เจฟฟ์ คอฟแมน: AI ทำลายวัฒนธรรมช่องโหว่ด้านความปลอดภัย 2 ประเภทพร้อมกัน และช่วงแบน 90 วันกลับกลายเป็นผลย้อนกลับ
ซอฟต์แวร์เอนจิเนียร์ Jeff Kaufman(jefftk)เมื่อวันที่ 8 พฤษภาคม เผยแพร่บทความเรื่อง「AI is Breaking Two Vulnerability Cultures」โดยโต้แย้งว่า AI กำลังทำลาย “วัฒนธรรม” การรับมือช่องโหว่ด้านความปลอดภัยที่อยู่ร่วมกันมายาวนาน 2 แบบพร้อมกัน ได้แก่ การเปิดเผยแบบประสานงาน(coordinated disclosure)และ “ปะแก้แบบเงียบ”(bugs are bugs)—ซึ่งต่างก็อาศัยสมมติฐานที่ว่า “ฝ่ายโจมตีใช้เวลาค้นหา/ตรวจจับช้า” และสมมติฐานดังกล่าวกำลังถูกเทคโนโลยีการสแกนแบบอัตโนมัติของ AI ทำลายลงแล้ว ต้นฉบับบล็อกของ Kaufman ยังได้รับความนิย
ChainNewsAbmedia40 นาที ที่แล้ว
OpenAI เผยคะแนน CoT ส่งผลกระทบโดยไม่คาดคิด: การคงการตรวจสอบสายโซ่ความคิด (CoT) คือแนวป้องกันสำคัญในการทำให้ AI Agent ตรงแนว
เมื่อวันที่ 8 พฤษภาคม OpenAI เผยแพร่การศึกษารูปแบบใหม่ โดยเปิดเผยว่าระหว่างกระบวนการฝึกการเรียนรู้เชิงเสริมแรง (RL) บริษัทได้ “ให้คะแนนอย่างไม่ตั้งใจ” ต่อ chain of thought (CoT) ของบางโมเดล ซึ่งอาจส่งผลต่อความสามารถในการตรวจสอบการจัดแนวของ AI Agent (alignment) ทีมงาน OpenAI Alignment รายงานว่า การคงไว้ซึ่งความสามารถในการตรวจสอบ CoT เป็นด่านป้องกันสำคัญในปัจจุบันต่อการรับมือกับความล้มเหลวของการจัดแนวของ AI Agent ในการออกแบบการฝึก RL ของ OpenAI นั้น ตั้งใจหลีกเลี่ยงการลงโทษ “การให้เหตุผลที่จัดแนวล
ChainNewsAbmedia43 นาที ที่แล้ว
วิศวกรของ Anthropic: HTML คือรูปแบบเอาต์พุตที่ดีที่สุดสำหรับ Claude Code ไม่ใช่ Markdown
ทีมวิศวกร Anthropic Claude Code ของ Thariq Shihipar เผยแพร่เมื่อวันที่ 8 พฤษภาคม “Using Claude Code: The Unreasonable Effectiveness of HTML” โดยโต้แย้งว่าให้ใช้ HTML แทน Markdown เป็นรูปแบบผลลัพธ์สำหรับการโต้ตอบกับ Claude Code โดย Simon Willison สรุปประเด็นสำคัญว่า HTML มีทั้งกราฟิก SVG องค์ประกอบแบบอินเทอร์แอคทีฟ จุดยึดในหน้า และสไตล์ CSS ทำให้คำตอบของ Claude จาก “ข้อความเชิงเส้น” กลายเป็น “เอกสารหลายมิติ” ซึ่งช่วยเพิ่มประสิทธิภาพด้านการอ่านและความเข้าใจได้อย่างมาก หัวข้อนี้ได้รับความสนใจอย่างสูงบนแพลตฟอร์ม X — ทวีตที่เกี่ยวข้องของ Shihipar จำนวน 2 โพสต์รวมกันมากกว่า 15,000 ไลก์
ChainNewsAbmedia53 นาที ที่แล้ว