นักสังเกตการณ์ AI ชาวจีน xiaohu เมื่อวันที่ 10 พฤษภาคม ได้แชร์ตัวอย่างเวิร์กโฟลว์ที่ผสาน GPT และ Gemini 3.1 Pro: เริ่มจากใช้ GPT สร้างภาพ แล้วใช้ Gemini 3.1 Pro แปลงภาพให้เป็นคอนเทนต์ 3D แบบโต้ตอบ ซึ่งสามารถนำหัวข้อความรู้ใดๆ มาทำให้หมุนได้และใช้งานได้ เหมาะกับแอปพลิเคชันด้านวิทยาศาสตร์ที่ลงมือทำได้จริง ตัวอย่างที่ xiaohu โพสต์โชว์ ได้แก่ การแสดงดาวเคราะห์ 3D โมเดลวิทยาศาสตร์แบบโต้ตอบ ฯลฯ เป็นการปฏิบัติจริงของ “เวิร์กโฟลว์ข้ามโมเดล” (multi-model workflow)
โครงสร้างเวิร์กโฟลว์: GPT สร้างภาพ → Gemini 3.1 Pro ทำให้เป็น 3D
การออกแบบเวิร์กโฟลว์ทั้งระบบแบบ 2 ขั้นตอน:
ขั้นที่ 1: ใช้ GPT (GPT-image-1 หรือการสร้างภาพที่มีใน ChatGPT) เพื่อให้ได้ภาพหลักของหัวข้อ และวางรากฐานด้านภาพ
ขั้นที่ 2: นำภาพเข้า Gemini 3.1 Pro ให้ Gemini แปลงภาพ 2D เป็นคอนเทนต์ 3D แบบโต้ตอบ
รูปแบบผลลัพธ์: วัตถุ 3D ที่สามารถหมุน ขยาย/ย่อ และโต้ตอบได้ในเบราว์เซอร์
กรณีใช้งาน: การศึกษาวิทยาศาสตร์ การนำเสนอสินค้า และคอนเทนต์ความรู้แบบโต้ตอบ
“เวิร์กโฟลว์ข้ามโมเดล” คือหนึ่งในแนวโน้มสำคัญของชั้นแอปพลิเคชัน AI ในปี 2026 — โมเดลเดี่ยวไม่ใช่เครื่องมือเอนกประสงค์อีกต่อไป นักพัฒนาเชื่อมต่อส่วนที่เก่งที่สุดของโมเดลต่างๆ เพื่อทำแอปพลิเคชันที่โมเดลเดี่ยวทำไม่ได้
การสาธิตแบบเฉพาะเจาะจง: ดาวเคราะห์ 3D คอนเทนต์วิทยาศาสตร์แบบโต้ตอบ เว็บไซต์จำหน่ายสินค้าแบบหุ่นยนต์
ตัวอย่างหลายรายการที่ xiaohu เผยแพร่พร้อมกัน:
การแสดงดาวเคราะห์ 3D: ระบบสุริยะที่หมุนได้ หรือโมเดลดาวเคราะห์เดี่ยว
คอนเทนต์วิทยาศาสตร์แบบโต้ตอบ: เปลี่ยนความรู้เชิงนามธรรมให้เป็นภาพ 3D ที่เหมาะกับการศึกษา
เว็บไซต์ในอนาคตของเครื่องจำหน่ายสินค้าแบบหุ่นยนต์: ใช้การสร้างภาพด้วย GPT ร่วมกับแพลตฟอร์ม Tripo 3D เพื่อทำเป็นเว็บเพจแบบโชว์เคส
จุดร่วมของตัวอย่างเหล่านี้คือ “การสร้างภาพ + การแปลงให้โต้ตอบได้” — GPT รับผิดชอบวิชวลเชิงความคิดสร้างสรรค์ ขณะที่ Gemini หรือเครื่องมือ 3D อื่นๆ รับหน้าที่แปลงภาพนิ่งให้กลายเป็นรูปแบบที่ใช้งานและโต้ตอบได้ แม้แต่ละชิ้นที่หยิบมาเดี่ยวๆ จะไม่ถือว่าใหม่ แต่เมื่อเชื่อมต่อกันแล้ว ประสบการณ์สุดท้ายจะดีกว่าเครื่องมือเดี่ยวใดๆ
ความหมาย: เวิร์กโฟลว์ข้ามโมเดลกำลังค่อยๆ กลายเป็นรูปแบบการพัฒนากระแสหลัก
ข้อคิดเชิงปฏิบัติสำหรับนักพัฒนา:
เลือกเครื่องมือให้ถูกสำคัญกว่าการเลือกโมเดลที่เก่งที่สุด — GPT เด่นด้านภาพ Gemini เด่นด้านความเข้าใจแบบมัลติโมดัล Claude เด่นด้าน context ระยะยาว ทุกตัวมีจุดเด่นของตัวเอง
ต้นทุนการอินทิเกรตผ่าน API ของโมเดลลดลง การเชื่อมต่อโมเดลหลายตัวในระดับการนำไปใช้งานจึงเริ่มทำได้จริง
แอปพลิเคชันยุคใหม่มีแนวโน้มเป็น “multi-model pipeline” มากกว่าการต่อยอดจาก “โมเดลเดี่ยวที่เก่งที่สุด”
คุณค่าของกรณีนี้ไม่ได้อยู่ที่การพัฒนาทางเทคนิคแบบก้าวกระโดด แต่เป็นแม่แบบการออกแบบเวิร์กโฟลว์
เหตุการณ์เฉพาะที่ติดตามได้ในภายหลัง: ความสามารถการสร้าง 3D ของ Gemini 3.1 Pro จะถูก Google ประกาศอย่างเป็นทางการให้เป็นฟีเจอร์ของผลิตภัณฑ์ในกิจกรรมถัดไปหรือไม่ เวิร์กโฟลว์ข้ามโมเดลจะได้รับการสนับสนุนด้วยเทมเพลตเริ่มต้นในเฟรมเวิร์กอย่าง LangChain/LlamaIndex หรือไม่ และกรณีการนำไปใช้เชิงพาณิชย์ (เช่น การศึกษา อีคอมเมิร์ซ การตลาด) จะมีตัวอย่างการใช้งานที่เป็นรูปธรรมอย่างไรบ้าง
บทความนี้ที่ xiaohu สาธิตเวิร์กโฟลว์ข้ามโมเดล: GPT สร้างภาพ + Gemini 3.1 Pro แปลงเป็นคอนเทนต์ 3D แบบโต้ตอบ เผยแพร่ครั้งแรกที่ 鏈新聞 ABMedia
news.related.news
ศึก Anthropic Code Mode กับ MCP Vs CLI: เครื่องมือคุม Runtime และลด tokens จาก 150K เหลือ 2K
Garry Tan: ตอนนี้ผมน้อยมากที่จะป้อนคำสั่งให้กับ AI! CEO ของ YC อธิบาย "เวิร์กโฟลว์ AI ที่ทบต้นได้"
Anthorpic เปิดตัว AI Agent เฉพาะทางด้านการเงิน และมีคนในวงการเผยว่า Claude ไม่สามารถแทนที่นักวิเคราะห์ได้ในจุดสำคัญ
NVIDIA เปิดตัวระบบนิเวศสำหรับการประมวลผลในอวกาศ พร้อมส่งพลังการคำนวณ AI ระดับศูนย์ข้อมูลขึ้นสู่อวกาศด้วย Space-1 Vera Rubin
GPT-5.5-Cyber ของ OpenAI ช่วยเหลือผู้พิทักษ์ไซเบอร์