DeAI แข่งขันกับ AI แบบรวมศูนย์ได้อย่างไร: ข้อได้เปรียบ การใช้งาน และการเงิน

PANews

2025-11-29 06:35:32

ผู้เขียน: 0xJeff, การเข้ารหัส KOL

การแปล: Felix, PANews

ปัจจุบันทุกคนต่างขายสิ่งของ ไม่ว่าจะเป็นอาหาร ที่พัก หนังสือสารานุกรม ผลิตภัณฑ์อิเล็กทรอนิกส์ แอปพลิเคชัน หรือแม้แต่ AI ล่าสุด

เมื่อก่อนการขายคือการตอบสนองความต้องการขั้นพื้นฐานของมาสโลว์ แต่ในปัจจุบันการขายคือความฝันและความหวัง และถูกบรรจุในบรรจุภัณฑ์ที่สวยงาม โดยเฉพาะในด้านการเข้ารหัส AI.

การเข้ารหัส AI ผลิตภัณฑ์และโครงสร้างพื้นฐานมักเข้าใจยาก ทำให้ทีมใช้ศัพท์เฉพาะมากเกินไปในการสื่อสาร ไม่สามารถดึงดูดผู้ใช้ได้.

นอกจากนี้ การเปิดตัวห้องปฏิบัติการ AI ที่แท้จริง (ไม่ใช่การห่อหุ้มแบบง่ายๆ) ต้องการเงินทุนจำนวนมากเพื่อสนับสนุนบุคลากร ผู้มีส่วนร่วม ทรัพยากรการคำนวณ และทรัพยากรที่จำเป็นอื่นๆ

ห้องปฏิบัติการ AI ระดับองค์กรที่ทันสมัยมีค่าใช้จ่ายสูงถึงหลายล้านดอลลาร์ต่อปี หากกำลังศึกษา ฝึกอบรม และปรับแต่งโมเดล AI ระดับแนวหน้า ค่าใช้จ่ายอาจสูงถึงหลายร้อยล้านดอลลาร์ ราคา GPU รุ่น H100 อยู่ระหว่าง 25,000 ถึง 40,000 ดอลลาร์ ขณะที่ GPU รุ่นใหม่อย่าง Blackwell B200 และ GB200 มีราคาอยู่ระหว่าง 30,000 ถึง 70,000 ดอลลาร์ การฝึกโมเดลระดับแนวหน้าอาจต้องใช้ GPU หลายพันตัวเช่นนี้

ข้อดีของ AI ที่ไม่มีศูนย์กลาง (DeAI): โมเดลขนาดเล็ก + การเรียนรู้แบบเสริมแรง

เลือกระบบที่กระจายศูนย์ ซึ่งหมายถึงการประสานทรัพยากรการคำนวณทั่วโลกเพื่อฝึกอบรมโมเดลเดียว ซึ่งในทางทฤษฎีสามารถลดต้นทุน GPU ได้อย่างมาก (ประหยัด 30% ถึง 90%) เพราะคุณสามารถใช้เครือข่าย GPU ที่ไม่ได้ใช้งานทั่วโลก แต่ในทางปฏิบัติ การประสานงาน GPU เหล่านี้และรับประกันว่าพวกมันสามารถทำงานได้อย่างมีคุณภาพนั้นเป็นเรื่องที่ยากมาก ดังนั้นปัจจุบันจึงไม่มีห้องทดลอง AI แบบกระจายศูนย์ที่สามารถแก้ปัญหาการฝึกอบรมแบบกระจายศูนย์ได้.

อย่างไรก็ตามอนาคตยังมีความหวัง เพราะมีห้องปฏิบัติการไม่กี่แห่งที่ประสบความสำเร็จในด้านการเรียนรู้เชิงลึกแบบกระจายศูนย์ ซึ่งเป็นกระบวนการในการเล่นเกมกับตัวเองและการเรียนรู้ด้วยตนเองที่ทำให้โมเดลขนาดเล็กสามารถฉลาดขึ้นได้อย่างมาก

ไม่ใช่ทุกสถานการณ์ที่ต้องการแบบจำลองภาษาใหญ่ (LLM) การฝึกอบรมแบบจำลองในสาขาที่เฉพาะเจาะจง และการใช้การเรียนรู้ด้วยการเสริม (RL) เพื่อปรับปรุงและพัฒนาทักษะของพวกเขานั้นเป็นวิธีที่คุ้มค่าที่สุดในการจัดหาโซลูชัน AI ระดับองค์กร เพราะท้ายที่สุดแล้ว สิ่งที่ลูกค้าต้องการคือผลลัพธ์ (การปฏิบัติตาม, ความปลอดภัย, มีความคุ้มค่าในต้นทุน และสามารถเพิ่มประสิทธิภาพการผลิตได้)

ตั้งแต่ปี 2019 OpenAI Five ได้เอาชนะทีม OG ซึ่งเป็นแชมป์โลกในขณะนั้นในเกม《Dota 2》 นี่ไม่ใช่โชคดี แต่เป็นการบดขยี้อย่างเด็ดขาด โดยเอาชนะทีม OG ติดต่อกันสองครั้ง

คุณอาจสงสัยว่ามันทำได้อย่างไร?

《Dota 2》เป็นเกมสนามรบออนไลน์ผู้เล่นหลายคนที่ซับซ้อนมาก โดยมีผู้เล่น 5 คนที่ต่อสู้กันเอง ทำภารกิจต่างๆ และทำลายฐานของฝ่ายตรงข้าม.

เพื่อให้ AI สามารถต่อสู้กับผู้เล่นระดับท็อปได้ มันได้ปฏิบัติตามขั้นตอนดังต่อไปนี้:

เริ่มต้นจากศูนย์ในการต่อสู้กับตัวเอง: เรียนรู้ความรู้พื้นฐานและทำการต่อสู้กับตัวเองหลายล้านครั้ง หากชนะ ก็หมายความว่าการดำเนินการเป็นไปในทางที่ดี; หากแพ้ ก็หมายความว่าการดำเนินการไม่ดี (คือการลองผิดลองถูกในขนาดใหญ่).
ตั้งระบบรางวัล (คะแนน) เพื่อกระตุ้นพฤติกรรมที่อาจนำไปสู่ค่าคาดหวัง (EV) ที่เป็นบวก (เช่น ทำลายป้อมปราการ, ฆ่าฮีโร่) และหักคะแนนสำหรับพฤติกรรมที่มีค่าคาดหวังเป็นลบ.
วิธีการฝึกอบรมใช้ อัลกอริธึมการเรียนรู้เชิงเสริมชื่อว่า “PPO” ที่ AI จะลองทำการบางอย่างในการแข่งขัน โดยที่ PPO จะมองผลลัพธ์เป็นการตอบรับ หากผลลัพธ์ดี ก็จะทำมากขึ้น; หากผลลัพธ์ไม่ดี ก็จะทำลดลง วิธีนี้จะค่อยๆ นำ AI ไปในทิศทางที่ถูกต้อง.
GPU หลายร้อยตัวทำงานมาเกือบปีเพื่อฝึก AI ซึ่ง AI เรียนรู้และปรับตัวตามการอัปเดตและการเปลี่ยนแปลงของเวอร์ชันเกม.
หลังจากช่วงเวลาหนึ่ง มันเริ่มสำรวจกลยุทธ์ที่ซับซ้อนด้วยตัวเอง (การเสียเส้น兵หนึ่งเส้น การใช้วิธีการที่ระมัดระวังหรือรุกที่เหมาะสมในเวลาที่เหมาะสม การจับจังหวะในการโจมตีขนาดใหญ่ ฯลฯ) และเริ่มแข่งขันกับผู้เล่นมนุษย์และชนะ

แม้ว่า OpenAI Five จะถูกปลดประจำการ แต่ก็ได้สร้างแรงบันดาลใจให้กับโมเดลขนาดเล็กที่สามารถมีประสิทธิภาพสูงในงานเฉพาะด้าน (จำนวนพารามิเตอร์ของ OpenAI Five เพียง 58MB)

เหตุผลที่ห้องปฏิบัติการ AI ขนาดใหญ่ เช่น OpenAI สามารถทำเช่นนี้ได้ก็เพราะมีเงินทุนและทรัพยากรในการฝึกฝนโมเดลการเรียนรู้แบบเสริม หาก บริษัท ต้องการมี OpenAI Five เป็นของตัวเองเพื่อการตรวจจับการฉ้อโกง หุ่นยนต์ในโรงงาน รถยนต์ขับเคลื่อนอัตโนมัติ หรือการซื้อขายในตลาดการเงิน จำเป็นต้องใช้เงินทุนจำนวนมากเพื่อทำเช่นนั้น

การเรียนรู้ที่เข้มแข็งแบบกระจายศูนย์ได้แก้ปัญหานี้ นี่คือเหตุผลที่ห้องปฏิบัติการ AI แบบกระจายศูนย์เช่น Nous Research, Pluralis, gensyn, Prime Intellect และ Gradient กำลังสร้างเครือข่าย GPU ทั่วโลก เพื่อฝึกอบรมโมเดลการเรียนรู้ที่เข้มแข็งร่วมกัน โดยจัดเตรียมโครงสร้างพื้นฐานสำหรับ AI ในระดับองค์กรที่เฉพาะเจาะจง

ห้องปฏิบัติการบางแห่งกำลังศึกษาแนวทางในการลดต้นทุนเพิ่มเติม เช่น การใช้ RTX 5090/4090 แทน H100 ในการฝึกอบรมโมเดลการเรียนรู้เชิงเสริม นอกจากนี้ยังมีบางแห่งที่มุ่งเน้นการใช้การเรียนรู้เชิงเสริมเพื่อยกระดับความฉลาดของโมเดลพื้นฐานขนาดใหญ่.

ไม่ว่าจะมุ่งเน้นการศึกษาไปที่ไหน ก็จะกลายเป็นหนึ่งในทิศทางการพัฒนาที่น่าตื่นเต้นที่สุดของ AI แบบกระจายศูนย์ หากโซลูชันการเรียนรู้เชิงเสริมแบบกระจายศูนย์สามารถนำไปใช้ในเชิงพาณิชย์ได้ในขนาดใหญ่ ลูกค้าบริษัทจะลงทุนเงินจำนวนมากใน AI และจะเห็นทีม AI แบบกระจายศูนย์จำนวนมากที่สร้างรายได้ประจำปีในระดับ 8 ถึง 9 หลัก.

ผ่านชั้นการประสานงานเพื่อให้เงินทุนแก่ DeAI และบรรลุการขยายขนาด

แต่ก่อนที่จะมีรายได้ต่อปีที่ 8 ถึง 9 หลัก พวกเขาจำเป็นต้องทำการวิจัย ดำเนินการ และเปลี่ยนไปใช้โซลูชันการเรียนรู้เชิงลึกที่มีความสามารถทางธุรกิจ ซึ่งต้องใช้เงินทุนจำนวนมาก.

การระดมทุนผ่านชั้นการประสานงานเช่น Bittensor เป็นหนึ่งในวิธีที่ดีที่สุด ทุกวันมีเงินรางวัล TAO มูลค่าหลายล้านดอลลาร์ถูกแจกจ่ายให้กับซับเน็ต (สตาร์ทอัพและห้องปฏิบัติการ AI) ในขณะที่ผู้มีส่วนร่วม (ผู้มีความสามารถด้าน AI) มีส่วนร่วมในซับเน็ตที่พวกเขาสนใจเพื่อรับส่วนหนึ่งของเงินรางวัล.

Bittensor ช่วยให้ผู้มีส่วนร่วมสามารถเข้าร่วมในการพัฒนา AI และยังช่วยให้นักลงทุนสามารถลงทุนในห้องทดลอง AI ที่มีส่วนร่วมในการพัฒนาเทคโนโลยี DeAI ได้อีกด้วย.

ในขณะนี้ในระบบนิเวศ Bittensor มีหลายสาขาย่อยของ DeAI ที่โดดเด่นออกมา รวมถึงการคำนวณควอนตัม การฝึกอบรมแบบกระจายอำนาจ ตัวแทน AI และระบบการคาดการณ์ (การเรียนรู้เชิงเสริมยังไม่ใช่หนึ่งในนั้น แต่มีซับเน็ตมากกว่า 3 แห่งที่กำลังให้ความสนใจกับการเรียนรู้เชิงเสริมแบบกระจายอำนาจ)

ปัจจุบันการพัฒนาเรียนรู้ที่เข้มแข็งแบบกระจายศูนย์เป็นอย่างไร?

การเรียนรู้เชิงลึกได้รับการพิสูจน์ว่าใช้ได้ในขนาดใหญ่ แต่ยังไม่ได้มีการนำไปใช้ในเชิงอุตสาหกรรม ข่าวดีคือความต้องการของบริษัทสำหรับตัวแทน AI ที่สามารถเรียนรู้จากข้อเสนอแนะแบบจริงกำลังเติบโตอย่างรวดเร็ว ตัวอย่างเช่น ตัวแทนที่สามารถเรียนรู้จากสภาพแวดล้อมจริง การขาย และการบริการลูกค้าทางโทรศัพท์ โมเดลการซื้อขายที่สามารถปรับตัวเข้ากับการเปลี่ยนแปลงของตลาด เป็นต้น ระบบการเรียนรู้ด้วยตนเองเหล่านี้สามารถสร้างหรือประหยัดเงินล้านดอลลาร์สำหรับบริษัทได้.

เทคโนโลยีความเป็นส่วนตัวกำลังเกิดขึ้นเช่นกัน การใช้เทคโนโลยีต่างๆ เช่น สภาพแวดล้อมการประมวลผลที่เชื่อถือได้ (TEE) การเข้ารหัสที่ฝังอยู่ภายใน TEE และความเป็นส่วนตัวเชิงแตกต่าง ในวงจรการตอบกลับช่วยในการเข้ารหัสและปกป้องข้อมูลส่วนบุคคล ทำให้ภาคอุตสาหกรรมที่ละเอียดอ่อน เช่น การดูแลสุขภาพ การเงิน และกฎหมาย สามารถรักษาความสอดคล้องในขณะที่มีตัวแทน AI ที่เรียนรู้ด้วยตนเองในสาขาที่เฉพาะเจาะจงได้อย่างมีประสิทธิภาพ

ต่อไปจะเป็นอย่างไร?

การเรียนรู้แบบเสริมแรงเป็นทางเลือกที่ดีที่สุดในการทำให้ AI ฉลาดขึ้นเรื่อยๆ การเรียนรู้แบบเสริมแรงจะเปลี่ยน AI จากระบบการสร้างเป็นตัวแทน AI ที่มีความฉลาดและกระตือรือร้น.

การรวมกันของความเป็นส่วนตัวและการเรียนรู้เชิงลึกจะผลักดันให้บริษัทนำไปใช้จริงเพื่อให้บริการโซลูชันที่สอดคล้องกับลูกค้า

การเรียนรู้เชิงเสริมทำให้ “เศรษฐกิจตัวแทน” เป็นไปได้ โดยตัวแทนซื้อทรัพยากรคอมพิวเตอร์ เจรจาเชิงโต้ตอบ และให้บริการ.

เนื่องจากความคุ้มค่าในการใช้ต้นทุน การเรียนรู้เชิงลึกแบบกระจายอำนาจจะกลายเป็นวิธีเริ่มต้นในการขยายการฝึกอบรมการเรียนรู้เชิงลึก.

การเรียนรู้แบบกระจาย (Federated RL) จะเกิดขึ้น เพื่อให้หลายฝ่ายสามารถเรียนรู้ร่วมกันโดยไม่ต้องแบ่งปันข้อมูลที่ละเอียดอ่อนในท้องถิ่น โดยรวมการปกป้องความเป็นส่วนตัวเข้ากับการเรียนรู้ด้วยตนเอง ซึ่งจะเพิ่มระดับความฉลาดอย่างมาก ในขณะเดียวกันก็ยังเป็นไปตามข้อกำหนดด้านความสอดคล้อง

อ่านเพิ่มเติม: การเข้ารหัส AI เปลี่ยนแปลงครั้งใหญ่: Virtuals ไม่เป็นที่นิยม, DeFAI และ AI การพยากรณ์ แย่งจุดสนใจ

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น