ค้นพบ SCENE
Tongyi Lab Z-Image Turbo ของ Alibaba ซึ่งเป็นโมเดลการสร้างภาพที่มีพารามิเตอร์ 6 พันล้านตัว ได้เปิดตัวเมื่อสัปดาห์ที่แล้วโดยมีสัญญาเพียงอย่างเดียว: คุณภาพที่ทันสมัยที่สุดบนฮาร์ดแวร์ที่คุณเป็นเจ้าของจริงๆ
สัญญานั้นกำลังลงจอดอย่างหนัก หลังจากวันของการเปิดตัว นักพัฒนาก็เริ่มสร้าง LoRAs—การปรับแต่งที่ปรับแต่งเฉพาะ—ด้วยความเร็วที่เหนือกว่าความเร็วของ Flux2 ซึ่งเป็นผลิตภัณฑ์ที่ได้รับความนิยมจาก Black Forest Labs ที่ถูกกล่าวถึงมากมายในฐานะผู้สืบทอดของโมเดล Flux ที่ได้รับความนิยมอย่างมาก.
เคล็ดลับของ Z-Image คือประสิทธิภาพ ขณะที่คู่แข่งอย่าง Flux2 ต้องการ VRAM ขั้นต่ำ 24GB ( และสูงสุดถึง 90GB สำหรับโมเดลเต็ม ) Z-Image ทำงานบนการตั้งค่าที่มีการควอนตัมโดยใช้เพียง 6GB เท่านั้น.
นั่นคือพื้นที่ของ RTX 2060—พื้นฐานแล้วเป็นฮาร์ดแวร์จากปี 2019 ขึ้นอยู่กับความละเอียด ผู้ใช้สามารถสร้างภาพได้ในเวลาเพียง 30 วินาทีเท่านั้น
สำหรับผู้ที่ชื่นชอบและผู้สร้างอิสระ นี่คือประตูที่เคยถูกล็อคไว้ก่อนหน้านี้.
ชุมชนศิลปะ AI รวดเร็วในการชื่นชมโมเดลนี้.
“นี่คือสิ่งที่ SD3 ควรจะเป็น” ผู้ใช้ Saruhey เขียนบน CivitAI ซึ่งเป็นคลังเครื่องมือ AI ศิลปะโอเพนซอร์สที่ใหญ่ที่สุดในโลก “การปฏิบัติตามคำสั่งนั้นยอดเยี่ยมมาก… โมเดลที่สามารถทำข้อความได้ทันทีนั้นเปลี่ยนเกมอย่างแท้จริง สิ่งนี้มีพลังเท่าเดิมหรืออาจจะดีกว่า Flux ที่เรียกได้ว่าเป็นเวทมนตร์ดำในตัวของมันเอง ชาวจีนก้าวหน้ากว่าในเกม AI อย่างมาก.”
Z-Image Turbo ได้เปิดให้บริการบน Civitai ตั้งแต่วันพฤหัสบดีที่แล้ว และได้รับการรีวิวเชิงบวกมากกว่า 1,200 รายการแล้ว สำหรับบริบท Flux2—ซึ่งเปิดตัวไม่กี่วันก่อน Z-Image—มี 157 รายการ.
โมเดลนี้ไม่มีการเซ็นเซอร์ตั้งแต่เริ่มต้น ดารา ตัวละครในนิยาย และใช่ เนื้อหาที่ชัดเจนก็อยู่ในรายการด้วย
ณ วันนี้ มีแหล่งข้อมูลประมาณ 200 แหล่ง (ฟินทูน, LoRAs, เวิร์กโฟลว์)สำหรับโมเดลบน Civitai เพียงอย่างเดียว ซึ่งหลายแหล่งเป็น NSFW.
บน Reddit ผู้ใช้ Regular-Forever5876 ได้ทดสอบขีดจำกัดของโมเดลด้วยคำสั่งที่เกี่ยวกับเลือดและรู้สึกตกใจ: “ว้าว!!! สิ่งนี้เข้าใจเรื่องเลือดได้อย่างมาก! มันสร้างได้อย่างสมบูรณ์แบบ” พวกเขาเขียน.
ความลับทางเทคนิคเบื้องหลัง Z-Image Turbo คือสถาปัตยกรรม S3-DiT ซึ่งเป็นทรานส์ฟอร์มเมอร์แบบสตรีมเดียวที่ประมวลผลข้อมูลข้อความและภาพร่วมกันตั้งแต่เริ่มต้น แทนที่จะรวมกันในภายหลัง การรวมกันอย่างแน่นหนานี้ ประกอบกับเทคนิคการกลั่นที่รุนแรง ทำให้โมเดลสามารถบรรลุตัวชี้วัดคุณภาพที่โดยปกติแล้วต้องการโมเดลที่มีขนาดห้าครั้ง
เราได้ทำการทดสอบ Z-Image Turbo อย่างกว้างขวางในหลายมิติ นี่คือสิ่งที่เราพบ.
ความเร็ว: SDXL Pace, คุณภาพรุ่นถัดไป
ที่เก้าขั้นตอน Z-Image Turbo สร้างภาพได้เร็วประมาณเท่ากับ SDXL โดยใช้ 30 ขั้นตอนตามปกติ—โมเดลที่ออกมาในปี 2023.
ความแตกต่างคือคุณภาพของภาพที่สร้างโดย Z-Image ตรงกับหรือดีกว่า Flux บนแล็ปท็อปที่มีการ์ดจอ RTX 2060 ซึ่งมี VRAM 6GB ภาพหนึ่งใช้เวลาถึง 34 วินาทีในการสร้าง
Flux2 เปรียบเทียบแล้วใช้เวลาประมาณสิบเท่าที่จะสร้างภาพที่เปรียบเทียบได้.
Z-Image Turbo เป็นโมเดลโอเพนซอร์สที่มีความสมจริงทางภาพมากที่สุดที่มีอยู่ในขณะนี้สำหรับฮาร์ดแวร์ระดับผู้บริโภค มันดีกว่า Flux2 อย่างชัดเจน และโมเดลที่กลั่นแล้วพื้นฐานยังทำได้ดีกว่าการปรับแต่งความสมจริงที่ใช้เฉพาะของ Flux.
ผิวและเส้นผมมีลักษณะที่ละเอียดและเป็นธรรมชาติ “Flux chin” ที่มีชื่อเสียงและ “ผิวพลาสติก” ส่วนใหญ่หายไปแล้ว สัดส่วนของร่างกายมีความแข็งแกร่งอย่างต่อเนื่อง และ LoRA ที่ช่วยเพิ่มความสมจริงอีกขั้นกำลังแพร่หลายในขณะนี้.
นี่คือที่ที่ Z-Image มีความโดดเด่นจริงๆ มันคือโมเดลโอเพ่นซอร์สที่ดีที่สุดสำหรับการสร้างข้อความในภาพ ซึ่งมีประสิทธิภาพเทียบเท่ากับ Nanobanana และ Seedream ของ Google—โมเดลที่ตั้งมาตรฐานปัจจุบัน.
สำหรับผู้พูดภาษาจีนกลาง Z-Image เป็นตัวเลือกที่ชัดเจน มันเข้าใจภาษาจีนโดยธรรมชาติและแสดงตัวอักษรได้อย่างถูกต้อง.
เคล็ดลับ: ผู้ใช้บางคนรายงานว่าการใช้คำกระตุ้นในภาษาจีนกลางช่วยให้โมเดลผลิตผลลัพธ์ที่ดีกว่า และนักพัฒนาถึงขั้นเผยแพร่ “เครื่องเสริมคำกระตุ้น” ในภาษาจีนกลาง.
ข้อความภาษาอังกฤษมีความแข็งแกร่งเท่าเทียมกัน ยกเว้นข้อยกเว้นหนึ่ง: คำยาวๆ ที่ไม่ธรรมดาเช่น “decentralized” อาจทำให้มันสะดุด—ข้อจำกัดที่ Nanobanana ก็มีเช่นกัน.
การปฏิบัติตามคำสั่งของ Z-Image นั้นยอดเยี่ยม มันเข้าใจสไตล์ ความสัมพันธ์เชิงพื้นที่ ตำแหน่ง และสัดส่วนด้วยความแม่นยำที่น่าทึ่ง
ตัวอย่างเช่น ให้ดูคำสั่งนี้:
สุนัขที่ใส่หมวกแดงยืนอยู่บนโทรทัศน์ที่แสดงข้อความ “Decrypt 是世界上最好的加密货币与人工智能媒体网站” บนหน้าจอ ทางด้านซ้ายมีผู้หญิงผมบลอนด์ในชุดสูทธุรกิจถือเหรียญ ส่วนทางด้านขวามีหุ่นยนต์ยืนอยู่บนกล่องปฐมพยาบาล และมีพิระมิดสีเขียวอยู่ด้านหลังกล่อง ทัศนียภาพทั้งหมดดูเหนือจริง แมวยืนอยู่คว่ำบนลูกบอลฟุตบอลสีขาวข้างๆ สุนัข นักบินอวกาศจาก NASA ถือป้ายที่เขียนว่า “Emerge” และตั้งอยู่ข้างหุ่นยนต์.
อย่างที่เห็น มันมีเพียงคำผิดเดียว อาจเป็นเพราะการผสมผสานของภาษา แต่ก็ไม่มีอะไรนอกจากนั้น ทุกองค์ประกอบถูกนำเสนออย่างถูกต้อง
การรั่วไหลของคำสั่งมีน้อยมาก และฉากที่ซับซ้อนพร้อมหลายหัวข้อยังคงมีความสอดคล้อง มันดีกว่า Flux ในมาตรฐานนี้และยังสามารถแข่งขันกับ Nanobanana ได้อย่างดี
อาลีบาบาวางแผนที่จะปล่อยตัวแปรอีกสองตัว: Z-Image-Base สำหรับการปรับแต่ง และ Z-Image-Edit สำหรับการปรับเปลี่ยนตามคำสั่ง หากพวกเขามีคุณภาพเทียบเท่ากับ Turbo ภูมิทัศน์โอเพนซอร์สกำลังจะเปลี่ยนแปลงอย่างมาก
ในตอนนี้ คำตัดสินของชุมชนชัดเจน: Z-Image ได้ยึดบัลลังก์ของ Flux ไปแล้ว เช่นเดียวกับที่ Flux เคยโค่น Stable Diffusion ลง
ผู้ชนะที่แท้จริงจะเป็นผู้ที่ดึงดูดนักพัฒนาที่สุดให้มาสร้างสรรค์บนแพลตฟอร์มนั้น
แต่ถ้าคุณถามเรา ใช่ Z-Image เป็นโมเดลโอเพ่นซอร์สที่เน้นบ้านที่เราชอบในตอนนี้