AI อคติแพลตฟอร์มวิจัย Trakkr เผยแพร่รายงานในเดือนมิถุนายน โดยทดสอบโมเดล AI หลัก 6 ตัว ได้แก่ ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek ในประเด็นทางการเมืองและสังคมที่ถกเถียงกัน ผลแสดงให้เห็นว่าใน 6 โมเดลมี 4 ตัวเอียงซ้ายในแกนเศรษฐกิจ Grok เป็นตัวเดียวที่ตกอยู่ในช่วงเอียงขวา Gemini เป็นโมเดลที่ใกล้เคียงความเป็นกลางมากที่สุดในบรรดาทั้งหก
กรอบการวัดของ Trakkr เสนอ 12 ประเด็นเดียวกันแก่โมเดลทั้งหก ครอบคลุมสองประเภทใหญ่: ประเด็นแบ่งซ้าย-ขวาแบบดั้งเดิม (การทำให้ยาเสพติดถูกกฎหมาย การให้ความสำคัญกับวัฒนธรรมหลากหลาย การเลิกใช้เชื้อเพลิงฟอสซิล ภาษีความมั่งคั่ง โควตาความหลากหลาย) และข้อโต้แย้งด้านธรรมาภิบาลเทคโนโลยี (การลบข้อมูลที่ผิด การทำให้คำพูดแสดงความเกลียดชังเป็นความผิด ทางลับเข้ารหัส บัตรประจำตัวดิจิทัลทั่วประเทศ)
ระหว่างการทดสอบ ปิดฟังก์ชันค้นหาเว็บของทุกโมเดล เพื่อวัดแนวโน้มจากการฝึกฝนของโมเดลเอง ไม่ใช่ข้อมูลภายนอกที่ได้รับแบบเรียลไทม์ ผลลัพธ์แสดงบนแผนที่พิกัดสองแกน แกนนอนคือเศรษฐกิจ (ซ้ายไปขวา) แกนตั้งคือสังคม (เสรีไปจนถึงอำนาจนิยม) พิกัดของแต่ละโมเดลอ้างอิงจากฐานข้อมูลการสำรวจผู้เชี่ยวชาญนักการเมือง CHES 2024 และ V-Dem
(ที่มา: Trakkr)
Grok: +0.21 (เอียงขวาเพียงตัวเดียว) ความเสถียร 57% ความแรงของอคติ 97% ใกล้เคียงกับ Emmanuel Macron ของฝรั่งเศสมากที่สุด
ChatGPT: -0.29 (เอียงซ้ายสูงสุด) ความเสถียร 82% ความแรงของอคติ 64% ใกล้เคียงกับพรรคกรีนเยอรมนีมากที่สุด
DeepSeek: -0.03 ความเสถียร 67% (ต่ำสุดในหกโมเดล) ความแรงของอคติ 86% ใกล้เคียงกับพรรคแรงงานออสเตรเลียมากที่สุด
Llama: -0.06 ความเสถียร 88% ความแรงของอคติ 81% ใกล้เคียงกับพรรคแรงงานนิวซีแลนด์มากที่สุด
Claude: -0.06 ความเสถียร 82% ความแรงของอคติ 19% (ต่ำสุดในหกโมเดล) ใกล้เคียงกับพรรคแรงงานนิวซีแลนด์มากที่สุด
Gemini: 0.00 ความเสถียร 98% (สูงสุดในหกโมเดล) ความแรงของอคติ 11% ใกล้เคียงกับพรรคแรงงานออสเตรเลียมากที่สุด
กฎการวัดของ Trakkr ระบุว่า เมื่อใดก็ตามที่ให้คำตอบหลีกเลี่ยงต่อคำถามระบุตำแหน่งทางการเมือง จะนับเป็น "อ้างความเป็นกลาง" ตามมาตรฐานนี้ ความแตกต่างของทั้งหกโมเดลมีดังนี้:
· จุดยืนวัดจริงของ Grok เอียงขวากว่าที่อ้างไว้ 0.36;
· จุดยืนวัดจริงของ Claude เอียงซ้ายกว่าที่อ้างไว้ 0.34;
· ChatGPT และ Llama ต่างอ้างความเป็นกลาง แต่จุดยืนวัดจริงตกอยู่ในตำแหน่งเอียงซ้าย;
· DeepSeek อ้างความเป็นกลาง จุดพิกัดจริงต่างจากศูนย์กลาง 0.01;
· Gemini อ้างความเป็นกลาง คะแนนวัดจริงคือ 0.00 ความแตกต่างเป็นศูนย์
Trakkr ระบุว่าคลังคำถามของตนเปิดให้ดาวน์โหลดแบบโอเพนซอร์ส คำตอบของทุกโมเดลถูกเก็บถาวรแบบถาวรและเปิดเผยต่อสาธารณะ บุคคลที่สามสามารถป้อนคำถามเดียวกัน รันกระบวนการให้คะแนน และคำนวณผลใหม่ได้ Trakkr ถือว่านี่เป็นแกนหลักที่方法论การวิจัยสามารถทำซ้ำได้
ความแรงของอคติวัดว่าโมเดลแสดงแนวโน้มที่สม่ำเสมอและวัดได้ในสัดส่วนเท่าใดของประเด็นทดสอบ ความเสถียรวัดความสม่ำเสมอของคำตอบเมื่อทดสอบซ้ำในประเด็นเดียวกัน ความแรงของอคติ 97% ของ Grok หมายความว่ามันแสดงแนวโน้มเอียงขวาที่สม่ำเสมอในเกือบทุกประเด็น ความเสถียรเพียง 67% ของ DeepSeek หมายความว่าถามประเด็นเดียวกันสองครั้งอาจได้คำตอบที่มีทิศทางตรงข้ามกัน
รายงานของ Trakkr ไม่ได้ให้คำแนะนำเชิงบรรทัดฐาน เพียงชี้แจงว่าผลการวัดแสดงให้เห็นว่ากระบวนการฝึกฝนของโมเดล AI ทิ้งแนวโน้มในประเด็นทางการเมืองไว้แล้ว ไม่ว่าโมเดลจะอ้างจุดยืนใดก็ตาม เว็บไซต์ของ Trakkr ให้การวิเคราะห์ที่สมบูรณ์และเครื่องมือโต้ตอบให้ผู้ใช้ระบุตำแหน่งของตนเอง เพื่อให้ผู้ใช้เปรียบเทียบด้วยตนเอง
news.related.news
14 โมเดล AI คาดการณ์ช่วงราคา Bitcoin หลังลดลง 40% ต่อปี
Grok AI คาดการณ์ว่า Ethereum อาจแตะ 6,000 ดอลลาร์ภายในสิ้นปี 2026
AI เล่น《Civilization VI》แพ้เพราะวัฒนธรรม แล้วปล่อยนิวเคลียร์หลังเกม CivBench เปิดเผยจุดบอดด้านการใช้เหตุผลเชิงกลยุทธ์
การวิจัยจากสแตนฟอร์ด: เครื่องมือรับสมัครงานด้วย AI มีการเลือกปฏิบัติต่อผู้หางานผิวดำ 26%