Li Feifei ผู้ก่อตั้ง World Labs และเป็นที่รู้จักในนาม “แม่ทูนหัวของ AI” ถูกสัมภาษณ์เพื่อหารือเกี่ยวกับความจําเป็นที่ AI จะก้าวไปไกลกว่าภาษาและพัฒนา “ความฉลาดเชิงพื้นที่” เพื่อให้เครื่องจักรสามารถเข้าใจและสร้างโลกทางกายภาพ 3 มิติได้อย่างแท้จริง (เรื่องย่อ: a16z Former Partner's Blockbuster Technology Report: AI กินโลกอย่างไร? (พื้นหลังเพิ่ม: Bridgewater Dalio: เร็วเกินไปที่จะขายหุ้น AI!) เนื่องจาก “เข็มที่เจาะฟองสบู่” ยังไม่ได้เล่น) ในช่วงเวลาที่โมเดลภาษาขนาดใหญ่กําลังกวาดล้างโลก Fei-Fei Li ศาสตราจารย์จากมหาวิทยาลัยสแตนฟอร์ดที่รู้จักกันในชื่อ “แม่ทูนหัวของ AI” ได้ตั้งเป้าหมายของเขาในพรมแดนถัดไปของปัญญาประดิษฐ์: ปัญญาประดิษฐ์เชิงพื้นที่ หลังจากออกจาก Google Cloud Li Feifei ได้ก่อตั้ง World Labs สตาร์ทอัพที่มีชื่อเสียงและเปิดตัวผลิตภัณฑ์โมเดลโลกตัวแรก Marble ในการสัมภาษณ์เชิงลึกกับ Eye on AI นี้ Li Feifei อธิบายอย่างละเอียดว่าทําไม AI ไม่เพียง แต่ต้องเข้าใจคําศัพท์เท่านั้น แต่ต้องมีความสามารถในการ “เห็น” “รับรู้” และ “สร้าง” โลก 3 มิติ บทสัมภาษณ์นี้กล่าวถึงหัวข้อหลักหลายประการ รวมถึง: Beyond Language: เหตุใดความรู้ของมนุษย์จึงไม่สามารถจับได้ด้วยคําพูดและ AI ต้องการการเรียนรู้ต่อเนื่องหลายรูปแบบ การถอดรหัสทางเทคนิค: โมเดล “RTFM” ของ World Labs สามารถสร้างโลก 3 มิติที่สอดคล้องกันทางเรขาคณิตด้วย GPU เพียงตัวเดียวได้อย่างไร ความคิดเห็นทางวิชาการ: อะไรคือความเหมือนและความแตกต่างระหว่างวิธีการของ Li Feifei และแนวคิดแบบจําลองโลกของ Yann LeCun หัวหน้านักวิทยาศาสตร์ AI ของ Meta? แนวโน้มในอนาคต: เมื่อใดที่ AI จะเข้าใจกฎของฟิสิกส์อย่างแท้จริงและแสดงให้เห็นถึงความคิดสร้างสรรค์ของการสอบถามทางวิทยาศาสตร์ นี่คือการแปลภาษาจีนเต็มรูปแบบของการสนทนาที่ยอดเยี่ยมนี้ ผู้ดําเนินรายการ: ฉันไม่ต้องการใช้เวลามากเกินไปในการพูดถึง Marble—โมเดลใหม่ของคุณที่สร้างโลก 3 มิติที่สม่ําเสมอและต่อเนื่องซึ่งขับเคลื่อนผู้ชมผ่านมันแม้ว่ามันจะยอดเยี่ยมจริงๆ ฉันต้องการสํารวจเพิ่มเติมว่าทําไมคุณถึงมุ่งเน้นไปที่ “แบบจําลองโลก” และ “ความฉลาดเชิงพื้นที่”? ทําไมสิ่งนี้จึงจําเป็นต้องไปไกลกว่าการเรียนรู้ภาษา? และวิธีการของคุณแตกต่างจากของ Yann LeCun อย่างไร? ก่อนอื่นคุณสามารถพูดคุยเกี่ยวกับว่าแบบจําลองโลกได้มาจากการวิจัยของคุณใน Ambient Intelligence หรือเป็นเส้นทางการวิจัยแบบคู่ขนาน? Feifei Li: งานข่าวกรองเชิงพื้นที่ที่ฉันคิดมาตลอดสองสามปีที่ผ่านมาเป็นความต่อเนื่องของอาชีพทั้งหมดของฉันที่เน้นการมองเห็นด้วยคอมพิวเตอร์และความฉลาดทางสายตา ฉันเน้น “พื้นที่” เพราะเทคโนโลยีของเราก้าวหน้าไปสู่จุดที่ความซับซ้อนและความลึกไม่ได้ จํากัด อยู่ที่การดูภาพหรือทําความเข้าใจภาพยนตร์ง่ายๆอีกต่อไป มันเป็นการรับรู้เชิงลึกเชิงพื้นที่และเชื่อมต่อกับหุ่นยนต์ AI ที่เป็นตัวเป็นตนและ AI ด้านสิ่งแวดล้อม ดังนั้นจากมุมมองนั้นมันเป็นความต่อเนื่องของอาชีพของฉันในด้านคอมพิวเตอร์วิทัศน์และ AI ผู้ดําเนินรายการ: ฉันยังพูดถึงความสําคัญของความฉลาดเชิงพื้นที่ในพอดคาสต์นี้มาระยะหนึ่งแล้ว แบบจําลองภาษาเรียนรู้จากความรู้ของมนุษย์ที่เข้ารหัสด้วยคําพูด แต่นั่นเป็นเพียงเศษเสี้ยวของความรู้ของมนุษย์ ดังที่คุณและคนอื่น ๆ ได้ชี้ให้เห็นมนุษย์มักจะเรียนรู้โดยการมีปฏิสัมพันธ์กับโลกโดยไม่มีภาษา ดังนั้นนั่นเป็นสิ่งสําคัญและในขณะที่ LLM ในปัจจุบันนั้นน่าทึ่งหากเราต้องการไปไกลกว่านั้นเราจําเป็นต้องพัฒนาโมเดลที่สัมผัสกับโลกโดยตรงมากขึ้นและเรียนรู้โดยตรงจากมัน แนวทางของคุณ—แน่นอนว่า Marble เป็นตัวอย่าง—คือการนําการแสดงภายในที่เรียนรู้โดยแบบจําลองและใช้การแสดงเหล่านั้นเพื่อสร้างความเป็นจริงทางภาพภายนอก ในทางกลับกันแนวทางของ LeCun สร้างตัวแทนภายในจากประสบการณ์โดยตรงหรือการป้อนข้อมูลวิดีโอทําให้แบบจําลองสามารถเรียนรู้สิ่งต่าง ๆ เช่นกฎของฟิสิกส์การเคลื่อนไหว มีความสัมพันธ์แบบคู่ขนานระหว่างทั้งสองหรือไม่? ทั้งสองแนวทางเสริมหรือทับซ้อนกันหรือไม่? Feifei Li: อย่างแรกเลยคือผมไม่ได้สู้กับ Yann เพราะผมคิดว่าเราทั้งคู่อยู่ในแวดวงวิชาการที่นําไปสู่ความฉลาดเชิงพื้นที่และโมเดลระดับโลก คุณอาจได้อ่านบทความล่าสุดที่ยาวนานของฉัน “แถลงการณ์ของหน่วยสืบราชการลับเชิงพื้นที่” ซึ่งฉันทําให้ชัดเจน ที่จริงผมคิดว่าถ้าในที่สุดเราจะพิจารณารูปแบบสากลที่มีอํานาจทุกอย่างของโลกแล้วทั้ง “การเป็นตัวแทนโดยนัย” และในที่สุดก็ในระดับหนึ่งของ “การแสดงที่ชัดเจน” โดยเฉพาะอย่างยิ่งในระดับผลผลิต – อาจมีความจําเป็น พวกเขาแต่ละคนมีบทบาทที่แตกต่างกัน ตัวอย่างเช่น Marble โมเดลโลกปัจจุบันของ World Labs จะส่งออกการแสดง 3 มิติอย่างชัดเจน แต่ภายในโมเดลมีการแสดงโดยนัยนอกเหนือจากผลลัพธ์ที่ชัดเจน สุจริตผมคิดว่าในที่สุดเราต้องการทั้งสองอย่าง สําหรับรูปแบบการป้อนข้อมูลใช่มันสําคัญมากที่จะต้องเรียนรู้จากภาพยนตร์ โลกทั้งโลกเป็นอินพุตที่ประกอบด้วยเฟรมติดต่อกันจํานวนมาก แต่สําหรับตัวแทนหรือเพียงแค่สัตว์โลกไม่ได้เป็นเพียงมุมมองแบบพาสซีฟ นอกจากนี้ยังรวมถึงการเคลื่อนไหวปฏิสัมพันธ์ประสบการณ์สัมผัสเสียงกลิ่นและประสบการณ์ที่เป็นตัวเป็นตนเช่นแรงทางกายภาพและอุณหภูมิ ดังนั้นฉันคิดว่ามันลึกหลายรูปแบบ แน่นอนว่า Marble ในฐานะนางแบบเป็นเพียงขั้นตอนแรก แต่ในบทความทางเทคนิคของเราที่เราเผยแพร่เมื่อไม่กี่วันก่อนเราได้ทําให้ชัดเจนว่าเราเชื่อว่า multimodality เป็นทั้งกระบวนทัศน์การเรียนรู้และกระบวนทัศน์อินพุต มีการอภิปรายทางวิชาการมากมายเกี่ยวกับเรื่องนี้ซึ่งแสดงให้เห็นถึงความตื่นเต้นในช่วงต้นของสนาม ดังนั้นฉันจะไม่บอกว่าเราได้สํารวจสถาปัตยกรรมแบบจําลองและการเป็นตัวแทนที่แน่นอนอย่างเต็มที่ ผู้ดําเนินรายการ: ในแบบจําลองโลกของคุณอินพุตส่วนใหญ่เป็นวิดีโอจากนั้นโมเดลจะสร้างตัวแทนภายในของโลกหรือไม่? Li Feifei: ไม่แน่ หากคุณเคยสัมผัสกับโมเดลโลกของเรา Marble อินพุตของมันคือกิริยามาก คุณสามารถใช้ข้อความธรรมดาภาพเดียวหรือหลายภาพภาพยนตร์หรือคุณสามารถป้อนเค้าโครง 3 มิติคร่าวๆเช่นสี่เหลี่ยมหรือ voxel Voxels ดังนั้นจึงเป็นหลายรูปแบบและเราจะเจาะลึกลงไปเรื่อย ๆ เมื่อเราพัฒนา ผู้สัมภาษณ์: นอกเหนือจากการเป็นผลิตภัณฑ์ที่ยอดเยี่ยมพร้อมแอพพลิเคชั่นมากมายแล้วความทะเยอทะยานของคุณในการสร้างระบบ - อย่างที่ฉันบอกว่าอินพุตเป็นภาพยนตร์ - สิ่งที่เรียนรู้จากประสบการณ์โดยตรงหรือไม่? มันเป็นการเรียนรู้ผ่านวิดีโอหรือรูปแบบอื่น ๆ มากกว่าผ่านสื่อรองเช่นข้อความหรือไม่? Feifei Li: ใช่ ฉันคิดว่าโมเดลโลกเป็นเรื่องเกี่ยวกับการเรียนรู้เกี่ยวกับโลก และโลกก็มีหลายรูปแบบมาก ไม่ว่าจะเป็นเครื่องจักรหรือสัตว์เราก็มีหลายประสาทสัมผัส การเรียนรู้เกิดขึ้นผ่านการรับรู้และการรับรู้มีรูปแบบที่แตกต่างกัน คําเป็นหนึ่งในรูปแบบเหล่านั้น นี่คือสิ่งที่ทําให้เราแตกต่างจากสัตว์เพราะสัตว์ส่วนใหญ่ไม่ได้เรียนรู้ผ่านภาษาที่ซับซ้อน แต่มนุษย์ทํา อย่างไรก็ตามโมเดลโลก AI ในปัจจุบันเรียนรู้จากอินพุตภาษาและรูปแบบอื่น ๆ จํานวนมาก แต่ไม่ จํากัด เฉพาะภาษาเป็นช่องทางเท่านั้น ผู้ดําเนินรายการ: หนึ่งในข้อ จํากัด ของ LLM คือพารามิเตอร์โมเดลได้รับการแก้ไขหลังจากการฝึกอบรมและโมเดลไม่ได้เรียนรู้อย่างต่อเนื่อง แม้ว่าจะมีการเรียนรู้ในระดับหนึ่งในการอนุมานการทดสอบ แต่นี่คือสิ่งที่คุณพยายามแก้ไขในแบบจําลองของโลกของคุณหรือไม่? เพราะให้เหตุผลว่าโมเดลโลกควรจะสามารถเรียนรู้ได้อย่างต่อเนื่องเมื่อต้องเจอกับสภาพแวดล้อมใหม่ Li Feifei: อืม…