Karpathy: AI ไม่ควรหยุดอยู่แค่ Markdown! HTML คืออนาคต และจุดจบคือฉากเชิงโต้ตอบที่สำรวจได้

ChainNewsAbmedia

อังเดรย์ คาร์พาธี (Andrej Karpathy) ช่วงนี้ได้ตอบโต้บนแพลตฟอร์ม X ต่อความเห็นของวิศวกรทีม Claude Code ของ Anthropic ชื่อ Thariq Shihipar โดยระบุว่า เวลาถามคำถามกับโมเดลภาษาขนาดใหญ่ (LLM) แค่เติมประโยคท้ายพรอมต์ว่า “โปรดแสดงคำตอบในรูปแบบโครงสร้าง HTML” แล้วนำไฟล์ที่ได้ไปเปิดดูในเบราว์เซอร์ ผลลัพธ์มักจะดีมาก เขายังบอกอีกด้วยว่าเขาเคยลองสั่งให้ LLM ทำคำตอบให้อยู่ในรูปแบบสไลด์เช่นกัน และก็ได้ผลลัพธ์ที่ดีเช่นกัน

(วิศวกรของ Anthropic: HTML คือรูปแบบเอาต์พุตที่ดีที่สุดสำหรับ Claude Code ไม่ใช่ Markdown)

จากข้อความล้วนสู่ HTML: เอาต์พุตของ AI กำลังเปลี่ยนจาก “อ่านได้” ไปสู่ “มองเห็นได้”

คำพูดนี้สืบต่อกระแสในชุมชนผู้พัฒนา AI ช่วงเร็วๆ นี้เกี่ยวกับคำถามว่า “HTML เหมาะจะเป็นรูปแบบเอาต์พุตของ AI มากกว่า Markdown หรือไม่” ก่อนหน้านี้ Shihipar เคยยืนยันในบทความเรื่อง〈Using Claude Code: The Unreasonable Effectiveness of HTML〉ว่า สำหรับเอเจนต์โค้ด AI อย่าง Claude Code นั้น HTML ไม่ได้เป็นเพียงรูปแบบการจัดวาง แต่เป็นอินเทอร์เฟซการแสดงผลที่ทำให้คำตอบของ AI จากข้อความเชิงเส้นธรรมดา ก้าวไปเป็นเอกสารเชิงโต้ตอบได้

คาร์พาธีต่อยอดประเด็นนี้ขึ้นไปอีกขั้น โดยมองการวิวัฒนาการของอินพุตและเอาต์พุตสำหรับทั้งมนุษย์และ AI คาร์พาธีเห็นว่า ปัจจุบันเอาต์พุตเริ่มต้นของ LLM ส่วนใหญ่ยังคงอยู่ในขั้น Markdown เมื่อเทียบกับข้อความดั้งเดิม Markdown ได้ยกระดับประสบการณ์การอ่านด้วยหัวข้อ ตัวหนา ตัวเอียง ตาราง ฯลฯ แต่โดยแก่นแล้ว มันยังคงเป็นการนำเสนอแบบเชิงเส้นที่ยึด “ข้อความ” เป็นศูนย์กลาง

ในมุมมองของเขา รูปแบบเอาต์พุตของ AI สามารถมองเป็นเส้นทางการวิวัฒนาการได้คร่าวๆ: ขั้นแรกคือข้อความดิบ ซึ่งมีต้นทุนการอ่านสูงที่สุด; ขั้นที่สองคือ Markdown ซึ่งเป็นรูปแบบเริ่มต้นของผลิตภัณฑ์ AI ส่วนใหญ่ในปัจจุบัน; และขั้นที่สามคือ HTML แม้ HTML จะยังเป็นผลผลิตเชิงโปรแกรม โดยพื้นฐานต้องใช้แท็กและโครงสร้าง แต่ในทางปฏิบัติมันให้ความยืดหยุ่นมากกว่าในด้านกราฟิก เค้าโครง สไตล์ และแม้แต่การเพิ่มองค์ประกอบเชิงโต้ตอบ

Markdown ทำให้คำตอบของ AI “อ่านง่ายขึ้น” แต่ HTML อาจทำให้คำตอบของ AI กลายเป็นเอกสารที่ “เลื่อนอ่านได้ ใช้งานได้ และเข้าใจด้วยสายตาได้”

นี่คือเหตุผลหลักที่ Shihipar เคยยืนยันว่า HTML เหนือกว่า Markdown: HTML สามารถรองรับกราฟิกแบบ SVG ตาราง พร้อมด้วยการเข้ารหัสสี สไตล์ CSS บล็อกเตือน จุดยึดภายในหน้า องค์ประกอบเชิงโต้ตอบ และตารางเปรียบเทียบแบบเคียงกัน สำหรับสถานการณ์อย่างเอกสารทางเทคนิค การวิเคราะห์ช่องโหว่ การทำให้ข้อมูลเป็นภาพ และการอธิบายเชิงสอน HTML สามารถเปลี่ยนข้อมูลข้อความที่เดิมต้องให้ผู้อ่านค่อยๆ ย่อยทีละน้อย ให้กลายเป็นเอกสารเชิงสายตาที่ระบุระดับ ความเสี่ยง และความสัมพันธ์ได้ในทันที

คาร์พาธี: มนุษย์ชอบป้อนด้วยเสียง แต่ชอบเอาต์พุตด้วยภาพมากกว่า

มุมมองใหม่ของคาร์พาธีไม่ได้พูดแค่เรื่อง HTML แต่กำลังพูดถึงอนาคตของอินเทอร์เฟซ AI

เขาระบุว่า มองจากฝั่งอินพุต มนุษย์อาจชอบการโต้ตอบด้วยเสียงและ AI มากกว่า เพราะการพูดเป็นวิธีสื่อสารที่เป็นธรรมชาติและต้นทุนต่ำกว่า แต่เมื่อมองจากฝั่งเอาต์พุต สิ่งที่มนุษย์ชอบจริงๆ คือข้อมูลเชิงภาพ รวมถึงรูปภาพ แอนิเมชัน และวิดีโอ

เหตุผลของเขาคือ สมองของมนุษย์มีราวหนึ่งในสามส่วนที่ใช้สำหรับประมวลผลข้อมูลด้านภาพ ดังนั้นเมื่อความสามารถของ AI เพิ่มขึ้น AI ไม่ควรแค่ห่อคำตอบไว้เป็นข้อความ แต่ควรค่อยๆ มุ่งไปสู่เอาต์พุตเชิงภาพที่มีความหนาแน่นสูงกว่า และเข้าใจได้ด้วยสัญชาตญาณมากขึ้น

สิ่งนี้ทำให้ความสำคัญของ HTML ชัดเจนขึ้น HTML ไม่ใช่จุดจบ แต่เป็นช่วงเปลี่ยนผ่านที่ AI ก้าวจากการออกคำตอบเป็นข้อความไปสู่การทำให้เป็นภาพ มันสื่อภาพ เค้าโครง และการโต้ตอบได้ดีกว่า Markdown แต่ก็ยังเสถียรกว่าและควบคุมได้มากกว่าเมื่อเทียบกับวิดีโอหรือการจำลองที่สร้างทั้งหมดด้วยเครือข่ายประสาท

คาร์พาธียังคาดเดาต่อไปว่า แม้เทคโนโลยีที่เกี่ยวข้องในตอนนี้อาจยังไม่มี แต่ในระยะยาว จุดหมายปลายทางของเอาต์พุต AI อาจเป็นวิดีโอหรือคอนเทนต์แบบอินเทอร์แอคทีฟที่โมเดลแบบการแพร่ (diffusion) สร้างขึ้นโดยตรง

กล่าวอีกนัยหนึ่ง อนาคตของ AI อาจไม่ใช่แค่ “ตอบเป็นข้อความให้คุณ” และไม่ใช่แค่ “ช่วยทำเอกสาร HTML ให้” แต่เป็นการสร้างฉากภาพที่โต้ตอบ สำรวจได้ และเปลี่ยนแปลงแบบไดนามิก ผู้ใช้สามารถเข้าไปใช้งาน ดูการเปลี่ยนแปลง และเข้าใจความสัมพันธ์เชิงเหตุและผลได้ เหมือนการผสานวิดีโอการสอน การจำลองแบบโต้ตอบ และอินเทอร์เฟซที่สร้างได้ทันทีเข้าด้วยกัน

อย่างไรก็ตาม คาร์พาธียอมรับว่า ยังมีคำถามเปิดอีกมาก โดยเฉพาะการผสานผลผลิตแบบ “Software 1.0” ในงานวิศวกรรมซอฟต์แวร์แบบดั้งเดิมที่มีความแม่นยำ ตรวจสอบได้ และทำเป็นกระบวนการได้ เช่น การจำลองเชิงโต้ตอบ คอมโพเนนต์ส่วนหน้า และโมเดลทางคณิตศาสตร์ เข้ากับภาพจากเครือข่ายประสาทที่สร้างด้วยโมเดลแบบการแพร่ รวมถึงแอนิเมชันหรือวิดีโอ ซึ่งตอนนี้ยังไม่มีคำตอบที่เป็นรูปธรรมและเป็นที่ยอมรับ

บทความนี้ Karpathy: AI ไม่ควรหยุดแค่ Markdown! HTML คืออนาคต ปลายทางคือฉากเชิงโต้ตอบที่สำรวจได้ เผยแพร่ครั้งแรกใน 鏈新聞 ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น