ภาพ Z ของจีนโค่น Flux ลงจากบัลลังก์เป็นราชาแห่งศิลปะ AI—และคอมพิวเตอร์มันฝรั่งของคุณสามารถรันมันได้

Decrypt

สรุป

  • โมเดล Z-Image ใหม่ทำงานบน VRAM ขนาด 6GB—ฮาร์ดแวร์ Flux2 ยังไม่สามารถสัมผัสได้เลย.
  • Z-Image มีแหล่งข้อมูลจากชุมชนมากกว่า 200 แห่งและมีรีวิวเชิงบวกกว่า 1,000 รายการเมื่อเปรียบเทียบกับรีวิว 157 รายการของ Flux2.
  • ถือเป็นโมเดลโอเพ่นซอร์สที่ดีที่สุดในปัจจุบัน.

ศูนย์กลางศิลปะ แฟชั่น และความบันเทิงของ Decrypt.


ค้นพบ SCENE

Tongyi Lab Z-Image Turbo ของ Alibaba ซึ่งเป็นโมเดลการสร้างภาพที่มีพารามิเตอร์ 6 พันล้านตัว ได้เปิดตัวเมื่อสัปดาห์ที่แล้วโดยมีสัญญาเพียงอย่างเดียว: คุณภาพที่ทันสมัยที่สุดบนฮาร์ดแวร์ที่คุณเป็นเจ้าของจริงๆ

สัญญานั้นกำลังลงจอดอย่างหนัก หลังจากวันของการเปิดตัว นักพัฒนาก็เริ่มสร้าง LoRAs—การปรับแต่งที่ปรับแต่งเฉพาะ—ด้วยความเร็วที่เหนือกว่าความเร็วของ Flux2 ซึ่งเป็นผลิตภัณฑ์ที่ได้รับความนิยมจาก Black Forest Labs ที่ถูกกล่าวถึงมากมายในฐานะผู้สืบทอดของโมเดล Flux ที่ได้รับความนิยมอย่างมาก.

เคล็ดลับของ Z-Image คือประสิทธิภาพ ขณะที่คู่แข่งอย่าง Flux2 ต้องการ VRAM ขั้นต่ำ 24GB ( และสูงสุดถึง 90GB สำหรับโมเดลเต็ม ) Z-Image ทำงานบนการตั้งค่าที่มีการควอนตัมโดยใช้เพียง 6GB เท่านั้น.

นั่นคือพื้นที่ของ RTX 2060—พื้นฐานแล้วเป็นฮาร์ดแวร์จากปี 2019 ขึ้นอยู่กับความละเอียด ผู้ใช้สามารถสร้างภาพได้ในเวลาเพียง 30 วินาทีเท่านั้น

สำหรับผู้ที่ชื่นชอบและผู้สร้างอิสระ นี่คือประตูที่เคยถูกล็อคไว้ก่อนหน้านี้.

ชุมชนศิลปะ AI รวดเร็วในการชื่นชมโมเดลนี้.

“นี่คือสิ่งที่ SD3 ควรจะเป็น” ผู้ใช้ Saruhey เขียนบน CivitAI ซึ่งเป็นคลังเครื่องมือ AI ศิลปะโอเพนซอร์สที่ใหญ่ที่สุดในโลก “การปฏิบัติตามคำสั่งนั้นยอดเยี่ยมมาก… โมเดลที่สามารถทำข้อความได้ทันทีนั้นเปลี่ยนเกมอย่างแท้จริง สิ่งนี้มีพลังเท่าเดิมหรืออาจจะดีกว่า Flux ที่เรียกได้ว่าเป็นเวทมนตร์ดำในตัวของมันเอง ชาวจีนก้าวหน้ากว่าในเกม AI อย่างมาก.”

Z-Image Turbo ได้เปิดให้บริการบน Civitai ตั้งแต่วันพฤหัสบดีที่แล้ว และได้รับการรีวิวเชิงบวกมากกว่า 1,200 รายการแล้ว สำหรับบริบท Flux2—ซึ่งเปิดตัวไม่กี่วันก่อน Z-Image—มี 157 รายการ.

โมเดลนี้ไม่มีการเซ็นเซอร์ตั้งแต่เริ่มต้น ดารา ตัวละครในนิยาย และใช่ เนื้อหาที่ชัดเจนก็อยู่ในรายการด้วย

ณ วันนี้ มีแหล่งข้อมูลประมาณ 200 แหล่ง (ฟินทูน, LoRAs, เวิร์กโฟลว์)สำหรับโมเดลบน Civitai เพียงอย่างเดียว ซึ่งหลายแหล่งเป็น NSFW.

บน Reddit ผู้ใช้ Regular-Forever5876 ได้ทดสอบขีดจำกัดของโมเดลด้วยคำสั่งที่เกี่ยวกับเลือดและรู้สึกตกใจ: “ว้าว!!! สิ่งนี้เข้าใจเรื่องเลือดได้อย่างมาก! มันสร้างได้อย่างสมบูรณ์แบบ” พวกเขาเขียน.

ความลับทางเทคนิคเบื้องหลัง Z-Image Turbo คือสถาปัตยกรรม S3-DiT ซึ่งเป็นทรานส์ฟอร์มเมอร์แบบสตรีมเดียวที่ประมวลผลข้อมูลข้อความและภาพร่วมกันตั้งแต่เริ่มต้น แทนที่จะรวมกันในภายหลัง การรวมกันอย่างแน่นหนานี้ ประกอบกับเทคนิคการกลั่นที่รุนแรง ทำให้โมเดลสามารถบรรลุตัวชี้วัดคุณภาพที่โดยปกติแล้วต้องการโมเดลที่มีขนาดห้าครั้ง

ทดสอบโมเดล

เราได้ทำการทดสอบ Z-Image Turbo อย่างกว้างขวางในหลายมิติ นี่คือสิ่งที่เราพบ.

ความเร็ว: SDXL Pace, คุณภาพรุ่นถัดไป

ที่เก้าขั้นตอน Z-Image Turbo สร้างภาพได้เร็วประมาณเท่ากับ SDXL โดยใช้ 30 ขั้นตอนตามปกติ—โมเดลที่ออกมาในปี 2023.

ความแตกต่างคือคุณภาพของภาพที่สร้างโดย Z-Image ตรงกับหรือดีกว่า Flux บนแล็ปท็อปที่มีการ์ดจอ RTX 2060 ซึ่งมี VRAM 6GB ภาพหนึ่งใช้เวลาถึง 34 วินาทีในการสร้าง

Flux2 เปรียบเทียบแล้วใช้เวลาประมาณสิบเท่าที่จะสร้างภาพที่เปรียบเทียบได้.

ความเป็นจริง: มาตรฐานใหม่

Z-Image Turbo เป็นโมเดลโอเพนซอร์สที่มีความสมจริงทางภาพมากที่สุดที่มีอยู่ในขณะนี้สำหรับฮาร์ดแวร์ระดับผู้บริโภค มันดีกว่า Flux2 อย่างชัดเจน และโมเดลที่กลั่นแล้วพื้นฐานยังทำได้ดีกว่าการปรับแต่งความสมจริงที่ใช้เฉพาะของ Flux.

ผิวและเส้นผมมีลักษณะที่ละเอียดและเป็นธรรมชาติ “Flux chin” ที่มีชื่อเสียงและ “ผิวพลาสติก” ส่วนใหญ่หายไปแล้ว สัดส่วนของร่างกายมีความแข็งแกร่งอย่างต่อเนื่อง และ LoRA ที่ช่วยเพิ่มความสมจริงอีกขั้นกำลังแพร่หลายในขณะนี้.

การสร้างข้อความ: สุดท้าย คำที่ใช้งานได้

นี่คือที่ที่ Z-Image มีความโดดเด่นจริงๆ มันคือโมเดลโอเพ่นซอร์สที่ดีที่สุดสำหรับการสร้างข้อความในภาพ ซึ่งมีประสิทธิภาพเทียบเท่ากับ Nanobanana และ Seedream ของ Google—โมเดลที่ตั้งมาตรฐานปัจจุบัน.

สำหรับผู้พูดภาษาจีนกลาง Z-Image เป็นตัวเลือกที่ชัดเจน มันเข้าใจภาษาจีนโดยธรรมชาติและแสดงตัวอักษรได้อย่างถูกต้อง.

เคล็ดลับ: ผู้ใช้บางคนรายงานว่าการใช้คำกระตุ้นในภาษาจีนกลางช่วยให้โมเดลผลิตผลลัพธ์ที่ดีกว่า และนักพัฒนาถึงขั้นเผยแพร่ “เครื่องเสริมคำกระตุ้น” ในภาษาจีนกลาง.

ข้อความภาษาอังกฤษมีความแข็งแกร่งเท่าเทียมกัน ยกเว้นข้อยกเว้นหนึ่ง: คำยาวๆ ที่ไม่ธรรมดาเช่น “decentralized” อาจทำให้มันสะดุด—ข้อจำกัดที่ Nanobanana ก็มีเช่นกัน.

ความตระหนักทางพื้นที่และการปฏิบัติตามอย่างรวดเร็ว: ยอดเยี่ยม

การปฏิบัติตามคำสั่งของ Z-Image นั้นยอดเยี่ยม มันเข้าใจสไตล์ ความสัมพันธ์เชิงพื้นที่ ตำแหน่ง และสัดส่วนด้วยความแม่นยำที่น่าทึ่ง

ตัวอย่างเช่น ให้ดูคำสั่งนี้:

สุนัขที่ใส่หมวกแดงยืนอยู่บนโทรทัศน์ที่แสดงข้อความ “Decrypt 是世界上最好的加密货币与人工智能媒体网站” บนหน้าจอ ทางด้านซ้ายมีผู้หญิงผมบลอนด์ในชุดสูทธุรกิจถือเหรียญ ส่วนทางด้านขวามีหุ่นยนต์ยืนอยู่บนกล่องปฐมพยาบาล และมีพิระมิดสีเขียวอยู่ด้านหลังกล่อง ทัศนียภาพทั้งหมดดูเหนือจริง แมวยืนอยู่คว่ำบนลูกบอลฟุตบอลสีขาวข้างๆ สุนัข นักบินอวกาศจาก NASA ถือป้ายที่เขียนว่า “Emerge” และตั้งอยู่ข้างหุ่นยนต์.

อย่างที่เห็น มันมีเพียงคำผิดเดียว อาจเป็นเพราะการผสมผสานของภาษา แต่ก็ไม่มีอะไรนอกจากนั้น ทุกองค์ประกอบถูกนำเสนออย่างถูกต้อง

การรั่วไหลของคำสั่งมีน้อยมาก และฉากที่ซับซ้อนพร้อมหลายหัวข้อยังคงมีความสอดคล้อง มันดีกว่า Flux ในมาตรฐานนี้และยังสามารถแข่งขันกับ Nanobanana ได้อย่างดี

ต่อไปคืออะไร?

อาลีบาบาวางแผนที่จะปล่อยตัวแปรอีกสองตัว: Z-Image-Base สำหรับการปรับแต่ง และ Z-Image-Edit สำหรับการปรับเปลี่ยนตามคำสั่ง หากพวกเขามีคุณภาพเทียบเท่ากับ Turbo ภูมิทัศน์โอเพนซอร์สกำลังจะเปลี่ยนแปลงอย่างมาก

ในตอนนี้ คำตัดสินของชุมชนชัดเจน: Z-Image ได้ยึดบัลลังก์ของ Flux ไปแล้ว เช่นเดียวกับที่ Flux เคยโค่น Stable Diffusion ลง

ผู้ชนะที่แท้จริงจะเป็นผู้ที่ดึงดูดนักพัฒนาที่สุดให้มาสร้างสรรค์บนแพลตฟอร์มนั้น

แต่ถ้าคุณถามเรา ใช่ Z-Image เป็นโมเดลโอเพ่นซอร์สที่เน้นบ้านที่เราชอบในตอนนี้

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น