การเปลี่ยนแปลงรูปแบบ AI 6 ประการในปี 2025: ตั้งแต่การฝึก RLVR, Vibe Coding ไปจนถึง Nano banana

PANews

ผู้แต่ง: Andrej Karpathy

แปลโดย: Tim, PANews

ปี 2025 เป็นปีที่โมเดลภาษาขนาดใหญ่พัฒนาอย่างรวดเร็วและเต็มไปด้วยความไม่แน่นอน เราได้บรรลุผลสำเร็จที่น่าพอใจ ต่อไปนี้คือสิ่งที่ฉันคิดว่าควรให้ความสนใจและรู้สึกประหลาดใจเล็กน้อยเกี่ยวกับ “การเปลี่ยนแปลงแนวทาง” ซึ่งการเปลี่ยนแปลงเหล่านี้ได้เปลี่ยนโฉมหน้าของสถานการณ์ และอย่างน้อยในระดับแนวคิดทำให้ฉันประทับใจ

1. การเรียนรู้ที่เสริมกำลังโดย基于可验证奖励 (RLVR)

ในต้นปี 2025 สแต็กการผลิต LLM ของห้องทดลอง AI ทั้งหมดจะมีลักษณะโดยประมาณดังนี้:

  • การฝึกอบรมล่วงหน้า (GPT-2/3 ในปี 2020);
  • การปรับแต่งแบบมีการกำกับ (InstructGPT ในปี 2022);
  • และการเรียนรู้แบบเสริมแรงที่อิงจากข้อเสนอแนะของมนุษย์ (RLHF, 2022)

มานานแล้ว เทคโนโลยีชุดนี้เป็นเทคโนโลยีที่มั่นคงและมีความก้าวหน้าสำหรับการฝึกโมเดลภาษาขนาดใหญ่ในระดับการผลิต จนถึงปี 2025 การเรียนรู้เชิงเสริมที่ใช้รางวัลที่สามารถตรวจสอบได้ได้กลายเป็นเทคโนโลยีหลักที่มีการนำไปใช้โดยทั่วไป โดยการฝึกโมเดลภาษาขนาดใหญ่ในสภาพแวดล้อมที่มีรางวัลที่สามารถตรวจสอบได้โดยอัตโนมัติหลายประเภท (เช่น การคำนวณทางคณิตศาสตร์ การแก้ปัญหาการเขียนโปรแกรม) โมเดลเหล่านี้สามารถสร้างกลยุทธ์ที่มีลักษณะคล้ายกับ “การอนุมาน” ในมุมมองของมนุษย์ได้เอง พวกเขาเรียนรู้ที่จะแบ่งปัญหาออกเป็นขั้นตอนการคำนวณระหว่างกลาง และเข้าใจกลยุทธ์ต่างๆ ในการแก้ปัญหาผ่านการอนุมานซ้ำๆ (สามารถดูกรณีศึกษาในเอกสาร DeepSeek-R1) ในชุดก่อนหน้า กลยุทธ์เหล่านี้ยากที่จะนำไปใช้ เนื่องจากเส้นทางการอนุมานที่ดีที่สุดและกลไกการย้อนกลับไม่ชัดเจนสำหรับโมเดลภาษาขนาดใหญ่ ต้องมีการสำรวจเพื่อค้นหาโซลูชันที่เหมาะสมสำหรับตัวเองผ่านการเพิ่มรางวัล.

แตกต่างจากขั้นตอนการปรับแต่งที่มีการดูแลและขั้นตอนการเรียนรู้เชิงเสริมที่ใช้ข้อเสนอแนะแบบมนุษย์ (ซึ่งทั้งสองขั้นตอนค่อนข้างสั้นและใช้การปรับแต่งที่คำนวณน้อย) การเรียนรู้เชิงเสริมที่ใช้รางวัลที่สามารถตรวจสอบได้เกี่ยวข้องกับการฝึกฝนการปรับแต่งในระยะยาวโดยการเพิ่มประสิทธิภาพฟังก์ชันรางวัลที่เป็นวัตถุประสงค์และไม่สามารถเล่นเกมได้ ซึ่งได้พิสูจน์แล้วว่าการทำงานของการเรียนรู้เชิงเสริมที่ใช้รางวัลที่สามารถตรวจสอบได้ภายในต้นทุนหน่วยนั้นสามารถนำไปสู่การเพิ่มประสิทธิภาพที่สำคัญ ทำให้ใช้ทรัพยากรการคำนวณที่วางแผนไว้สำหรับการฝึกอบรมเบื้องต้นเป็นจำนวนมาก ดังนั้น ความก้าวหน้าของความสามารถของโมเดลภาษาขนาดใหญ่ในปี 2025 จะสะท้อนให้เห็นถึงความต้องการการคำนวณที่มหาศาลที่ AI ห้องทดลองหลักได้ปรับตัวให้เข้ากับเทคโนโลยีใหม่นี้ โดยทั่วไปแล้ว เราจะเห็นว่าขนาดของโมเดลมีความคล้ายคลึงกัน แต่เวลาการฝึกอบรมการเรียนรู้เชิงเสริมนั้นยาวนานขึ้นอย่างมาก อีกหนึ่งลักษณะเฉพาะของเทคโนโลยีใหม่นี้คือเราได้มิติการควบคุมใหม่ (รวมถึงกฎ Scaling ที่เกี่ยวข้อง) นั่นคือการควบคุมความสามารถของโมเดลในฐานะฟังก์ชันของการคำนวณในช่วงเวลาทดสอบ โดยการสร้างเส้นทางการอนุมานที่ยาวขึ้นและเพิ่ม “เวลาคิด” โมเดล o1 ของ OpenAI (เปิดตัวปลายปี 2024) เป็นการสาธิตของโมเดลการเรียนรู้เชิงเสริมที่ใช้รางวัลที่สามารถตรวจสอบได้เป็นครั้งแรก ในขณะที่การเปิดตัว o3 (ต้นปี 2025) เป็นจุดเปลี่ยนที่ชัดเจนที่ให้ความรู้สึกถึงการก้าวกระโดดที่มีคุณภาพ.

2. ปัญญาประดิษฐ์ผี vs. ปัญญาประดิษฐ์ฟันเลื่อยสัตว์

ในปี 2025 ทำให้ฉัน (และฉันคิดว่าทั้งอุตสาหกรรม) เริ่มเข้าใจ “รูปแบบ” ของปัญญาประดิษฐ์จากโมเดลภาษาใหญ่จากมุมมองที่ตรงไปตรงมาเป็นครั้งแรก เราไม่ได้ “วิวัฒนาการและเพาะพันธุ์สัตว์” แต่กำลัง “เรียกวิญญาณ” สแต็คเทคโนโลยีทั้งหมดของโมเดลภาษาใหญ่ (สถาปัตยกรรมประสาท, ข้อมูลการฝึก, อัลกอริธึมการฝึก, โดยเฉพาะอย่างยิ่งเป้าหมายในการเพิ่มประสิทธิภาพ) นั้นแตกต่างอย่างสิ้นเชิง ดังนั้นเราจึงได้เอนทิตีที่แตกต่างจากปัญญาทางชีวภาพในด้านปัญญา ซึ่งไม่แปลกใจเลย การมองพวกมันจากมุมมองของสัตว์จึงไม่เหมาะสม จากมุมมองของข้อมูลที่มีการควบคุม เครือข่ายประสาทของมนุษย์ได้รับการเพิ่มประสิทธิภาพเพื่อความอยู่รอดของเผ่าพันธุ์ในสภาพแวดล้อมของป่า ในขณะที่เครือข่ายประสาทของโมเดลภาษาใหญ่ได้รับการเพิ่มประสิทธิภาพเพื่อเลียนแบบข้อความของมนุษย์ รับรางวัลจากปัญหาทางคณิตศาสตร์ และชนะความชอบจากมนุษย์ในสนามแข่งขัน ด้วยการที่พื้นที่ที่สามารถตรวจสอบได้ให้เงื่อนไขสำหรับการเรียนรู้เชิงเสริมที่อิงจากรางวัล โมเดลภาษาใหญ่จะมีความสามารถ “พุ่งสูง” ใกล้เคียงกับพื้นที่เหล่านั้น โดยรวมแล้วแสดงให้เห็นถึงลักษณะประสิทธิภาพที่น่าสนใจและเป็นลักษณะคลื่นฟันเลื่อย พวกเขาอาจเป็นทั้งอัจฉริยะที่มีความรู้มากมายและนักเรียนชั้นประถมที่สับสนและมีปัญหาทางความเข้าใจ ที่อาจรั่วไหลข้อมูลของคุณเมื่อถูกล่อลวง

!

ปัญญาประดิษฐ์: สีน้ำเงิน, ปัญญาอัจฉริยะ: สีแดง. ฉันชอบเวอร์ชันนี้ของมีม (ขอโทษที่ฉันไม่สามารถหาที่มาของโพสต์ต้นฉบับในทวิตเตอร์ได้) เพราะมันชี้ให้เห็นว่าปัญญาของมนุษย์ก็แสดงออกมาในลักษณะคลื่นฟันปลาในแบบที่เป็นเอกลักษณ์ของมันเช่นกัน.

เกี่ยวข้องกับเรื่องนี้ ในปี 2025 ฉันมีความเฉยเมยและไม่ไว้วางใจต่อการทดสอบมาตรฐานประเภทต่างๆ โดยปัญหาหลักคือการทดสอบมาตรฐานนั้นแทบจะเป็นสภาพแวดล้อมที่สามารถตรวจสอบได้ ดังนั้นจึงมีแนวโน้มที่จะได้รับผลกระทบจากการเรียนรู้เสริมที่อิงจากรางวัลที่สามารถตรวจสอบได้และรูปแบบที่อ่อนแอกว่าที่สร้างจากข้อมูลสังเคราะห์ ในกระบวนการ “การเพิ่มคะแนนสูงสุด” ที่เป็นแบบฉบับ ทีมโมเดลภาษาขนาดใหญ่จะต้องสร้างสภาพแวดล้อมการฝึกในบริเวณใกล้เคียงของพื้นที่ฝังตัวขนาดเล็กที่การทดสอบมาตรฐานตั้งอยู่ และครอบคลุมพื้นที่เหล่านี้ด้วย “ฟันเลื่อยความสามารถ” การ “ฝึกอบรมในชุดทดสอบ” ได้กลายเป็นบรรทัดฐานใหม่

ทำคะแนนสูงในทุกการทดสอบมาตรฐานแต่ยังไม่สามารถสร้างปัญญาประดิษฐ์ทั่วไปได้ จะเป็นอย่างไรล่ะ?

3.เคอร์เซอร์:LLMแอปพลิเคชันในระดับใหม่

จุดที่ทำให้ Cursor ประทับใจฉันที่สุด (นอกจากการเติบโตอย่างรวดเร็วในปีนี้) คือการที่มันเปิดเผยระดับใหม่ของ “แอพ LLM” อย่างน่าเชื่อถือ เพราะผู้คนเริ่มพูดถึง “Cursor ในสาขา XX” ตามที่ฉันได้เน้นย้ำในการพูดที่ Y Combinator ในปีนี้ แอพ LLM อย่าง Cursor มีแกนหลักในการรวมและจัดระเบียบการเรียกใช้งาน LLM สำหรับสาขาเฉพาะ

  • พวกเขารับผิดชอบ “การวิศวกรรมบริบท”;
  • ในระดับพื้นฐานจัดเรียงการเรียกใช้ LLM หลายรายการให้เป็นกราฟที่มีทิศทางและไม่มีวงจรที่ซับซ้อนมากขึ้น โดยพิจารณาถึงความสมดุลระหว่างประสิทธิภาพและต้นทุนอย่างละเอียด; ให้ผู้ที่อยู่ใน “คนในวงจร” มีอินเทอร์เฟซกราฟิกเฉพาะแอปพลิเคชัน;
  • และให้มี “แถบเลื่อนปรับความเป็นอิสระ”.

ในปี 2025 มีการอภิปรายอย่างกว้างขวางเกี่ยวกับพื้นที่การพัฒนาของชั้นแอปพลิเคชันที่เกิดขึ้นใหม่ แพลตฟอร์มโมเดลภาษาขนาดใหญ่จะกินรวบแอปพลิเคชันทั้งหมดหรือไม่ หรือแอปพลิเคชันโมเดลภาษาขนาดใหญ่จะยังคงมีพื้นที่กว้างขวางอยู่หรือไม่? ผมคาดการณ์ว่า การกำหนดตำแหน่งของแพลตฟอร์มโมเดลภาษาขนาดใหญ่จะค่อยๆ เข้าใกล้การฝึกอบรม “บัณฑิตที่มีความรู้รอบด้าน” ในขณะที่แอปพลิเคชันโมเดลภาษาขนาดใหญ่จะรับผิดชอบในการจัดระเบียบ “บัณฑิต” เหล่านี้ ทำการปรับแต่งอย่างละเอียด และผ่านการจัดเตรียมข้อมูลส่วนตัว เซ็นเซอร์ เครื่องดำเนินการ และวงจรข้อเสนอแนะ ทำให้พวกเขาเป็น “ทีมงานมืออาชีพ” ที่สามารถนำไปใช้งานจริงในสาขาที่เฉพาะเจาะจงได้.

4.Claude Code:ทำงานในเครื่อง AI

การปรากฏตัวของ Claude Code ได้แสดงให้เห็นถึงรูปแบบของ LLM เอเจนต์อย่างน่าเชื่อถือเป็นครั้งแรก โดยมันได้ผสมผสานการใช้เครื่องมือเข้ากับกระบวนการให้เหตุผลในลักษณะที่วนเวียน เพื่อให้สามารถแก้ไขปัญหาที่ซับซ้อนได้อย่างยาวนานยิ่งขึ้น นอกจากนี้ Claude Code ยังทำให้ฉันประทับใจในจุดที่ว่า มันทำงานบนคอมพิวเตอร์ส่วนบุคคลของผู้ใช้ เชื่อมโยงอย่างลึกซึ้งกับสภาพแวดล้อม ข้อมูล และบริบทส่วนตัวของผู้ใช้ ฉันคิดว่า OpenAI มีการตัดสินใจที่ผิดพลาดในทิศทางนี้ เพราะพวกเขาให้ความสำคัญกับการพัฒนาผู้ช่วยเขียนโค้ดและเอเจนต์ในสภาพแวดล้อมที่ถูกปรับใช้บนคลาวด์ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่ถูกบรรจุในคอนเทนเนอร์ที่ถูกจัดการโดย ChatGPT แทนที่จะเป็นสภาพแวดล้อมในเครื่อง (localhost) แม้ว่าสมองกลที่ทำงานบนคลาวด์ดูเหมือนจะเป็น “รูปแบบสุดท้ายของปัญญาประดิษฐ์ทั่วไป” แต่เรายังอยู่ในช่วงการพัฒนาความสามารถที่ไม่เท่ากันและมีความก้าวหน้าที่ค่อนข้างช้า ภายใต้เงื่อนไขความเป็นจริงเช่นนี้ การติดตั้งเอเจนต์โดยตรงบนคอมพิวเตอร์ส่วนบุคคลและทำงานร่วมกับนักพัฒนาและสภาพแวดล้อมการทำงานเฉพาะของพวกเขาอย่างใกล้ชิด เป็นเส้นทางที่มีเหตุผลมากกว่า Claude Code ได้จับต้องลำดับความสำคัญนี้ได้อย่างถูกต้องและบรรจุไว้ในรูปแบบของเครื่องมือบรรทัดคำที่เรียบง่าย สวยงาม และดึงดูดใจ ซึ่งได้เปลี่ยนแปลงวิธีการนำเสนอ AI ไปอย่างสิ้นเชิง มันไม่ใช่เพียงแค่เว็บไซต์ที่ต้องเข้าถึงเหมือน Google แต่เป็น “วิญญาณเล็ก ๆ” ที่ “อาศัย” อยู่ในคอมพิวเตอร์ของคุณ นี่คือรูปแบบใหม่ที่ไม่เหมือนใครในการโต้ตอบกับ AI.

5. Vibe Codingบรรยากาศการเขียนโปรแกรม

ในปี 2025 ปัญญาประดิษฐ์ได้ข้ามผ่านอุปสรรคด้านความสามารถที่สำคัญ ทำให้การสร้างโปรแกรมที่น่าทึ่งต่างๆ โดยเพียงแค่การอธิบายด้วยภาษาอังกฤษเป็นไปได้ ซึ่งผู้คนไม่จำเป็นต้องกังวลเกี่ยวกับโค้ดพื้นฐานเลย น่าสนใจที่ฉันเคยสร้างคำว่า “Vibe Coding” ในทวีตที่คิดขึ้นขณะอาบน้ำ โดยไม่คิดว่ามันจะพัฒนาไปถึงระดับนี้ ในกรอบของการเขียนโปรแกรมแบบบรรยากาศ การเขียนโปรแกรมไม่ใช่เรื่องที่ถูกจำกัดเฉพาะผู้เชี่ยวชาญที่ฝึกฝนมาอย่างดีอีกต่อไป แต่ได้กลายเป็นเรื่องที่ทุกคนสามารถมีส่วนร่วมได้ จากมุมมองนี้ มันเป็นอีกตัวอย่างหนึ่งของปรากฏการณ์ที่ฉันได้อธิบายไว้ในบทความ “การมอบอำนาจให้กับผู้คน: โมเดลภาษาขนาดใหญ่เปลี่ยนรูปแบบการแพร่กระจ技术” ตรงข้ามกับเทคโนโลยีอื่นๆ ทั้งหมด จนถึงปัจจุบัน คนธรรมดาได้รับประโยชน์จากโมเดลภาษาขนาดใหญ่มากกว่าผู้เชี่ยวชาญ บริษัท และรัฐบาล แต่การเขียนโปรแกรมแบบบรรยากาศไม่เพียงแต่ทำให้คนธรรมดาเข้าถึงการเขียนโปรแกรมได้ แต่ยังทำให้ผู้พัฒนามืออาชีพสามารถเขียนซอฟต์แวร์ที่ “ไม่เคยถูกสร้างขึ้น” ได้มากขึ้น ในการพัฒนา nanochat ฉันได้ใช้การเขียนโปรแกรมแบบบรรยากาศเขียนตัวแบ่งคำ BPE ที่มีประสิทธิภาพเฉพาะตัวด้วยภาษา Rust โดยไม่ต้องพึ่งพาห้องสมุดที่มีอยู่หรือเรียนรู้ Rust อย่างลึกซึ้ง ปีนี้ ฉันยังได้ใช้การเขียนโปรแกรมแบบบรรยากาศในการสร้างต้นแบบของโปรเจกต์หลายโครงการอย่างรวดเร็ว เพียงเพื่อทดสอบว่าแนวคิดบางอย่างสามารถใช้งานได้หรือไม่ ฉันถึงขั้นเขียนแอปพลิเคชันแบบใช้ครั้งเดียวทั้งหมด เพียงเพื่อระบุช่องโหว่เฉพาะ เพราะโค้ดกลายเป็นสิ่งที่ฟรี ชั่วคราว ปรับเปลี่ยนได้ และใช้แล้วทิ้ง การเขียนโปรแกรมแบบบรรยากาศจะเปลี่ยนแปลงระบบนิเวศการพัฒนาซอฟต์แวร์ และเปลี่ยนแปลงขอบเขตของการนิยามอาชีพอย่างลึกซึ้ง.

6.Nano banana:LLMกราฟิกอินเตอร์เฟซ

Gemini Nano banana ของ Google เป็นหนึ่งในพาราดigm ที่เปลี่ยนแปลงที่มีการรบกวนมากที่สุดในปี 2025 ในความเห็นของฉัน โมเดลภาษาขนาดใหญ่เป็นพาราดigm การคำนวณที่สำคัญถัดไปหลังจากคอมพิวเตอร์ในปี 1970 และ 1980 ดังนั้นเราจะเห็นนวัตกรรมที่คล้ายกันซึ่งมีสาเหตุพื้นฐานเดียวกัน คล้ายกับการพัฒนาของการคอมพิวเตอร์ส่วนบุคคล ไมโครคอนโทรลเลอร์ และแม้แต่การพัฒนาอินเทอร์เน็ต โดยเฉพาะในระดับการโต้ตอบระหว่างมนุษย์กับเครื่อง ในปัจจุบันรูปแบบ “การสนทนา” กับ LLM ในบางส่วนคล้ายกับการป้อนคำสั่งไปยังเทอร์มินัลคอมพิวเตอร์ในปี 1980 ข้อความเป็นรูปแบบการแทนข้อมูลที่มีความบริสุทธิ์ที่สุดสำหรับคอมพิวเตอร์ (และ LLM) แต่ไม่ใช่วิธีที่มนุษย์ (โดยเฉพาะในขณะป้อนข้อมูล) ต้องการ มนุษย์จริงๆ แล้วเกลียดการอ่านตัวอักษร มันช้าและใช้ความพยายามมาก ในทางตรงกันข้าม มนุษย์มีแนวโน้มที่จะรับข้อมูลผ่านมิติทางสายตาและเชิงพื้นที่ ซึ่งเป็นเหตุผลที่ทำให้มีการเกิดขึ้นของส่วนต่อประสานผู้ใช้กราฟิกในคอมพิวเตอร์แบบดั้งเดิม เช่นเดียวกัน โมเดลภาษาขนาดใหญ่ควรสื่อสารกับเราผ่านรูปแบบที่มนุษย์ชอบ โดยใช้ภาพ อินโฟกราฟิก สไลด์ กระดานไวท์บอร์ด แอนิเมชัน วิดีโอ แอปพลิเคชันเว็บ และสื่ออื่น ๆ รูปแบบเบื้องต้นในปัจจุบันได้บรรลุผลผ่านการใช้สัญลักษณ์อีโมติคอนและ “การตกแต่งข้อความแบบภาพ” เช่นเดียวกับองค์ประกอบการจัดรูปแบบ เช่น หัวเรื่อง ตัวหนา รายการ ตาราง เป็นต้น แต่ใครจะเป็นคนสร้างส่วนต่อประสานกราฟิกของโมเดลภาษาขนาดใหญ่จริง ๆ ? มองในมุมนี้ nano banana นั้นเป็นรูปแบบเบื้องต้นของแผนผังอนาคตนี้ โดยที่ การพัฒนาอย่างก้าวหน้าของ nano banana ไม่ได้อยู่ที่ความสามารถในการสร้างภาพเท่านั้น แต่ยังอยู่ที่ความสามารถรวมกันของการสร้างข้อความ การสร้างภาพ และความรู้เกี่ยวกับโลกที่ถูกถักทอในน้ำหนักของโมเดล.

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น