Bước nhảy vọt của AI trong hình ảnh: Các mô hình mới nhất của Google và ByteDance hoạt động như thế nào

Decrypt

Tóm tắt ngắn gọn

  • Cả hai mô hình đều giới thiệu khả năng suy luận nhiều bước trước khi tạo hình ảnh, giúp xử lý các yêu cầu phức tạp, hình ảnh tham chiếu và quy trình chỉnh sửa mở rộng đáng tin cậy hơn các hệ thống khuếch tán trước đó.
  • Seedream có giá thấp hơn Google và cho phép thực thi cục bộ cùng chỉnh sửa hình ảnh thực tế, trong khi Nano Banana được tích hợp chặt chẽ trong hệ sinh thái tiêu dùng và doanh nghiệp của Google.
  • Thử nghiệm cho thấy Seedream giữ tốt hơn đặc trưng nhân vật và tính nhất quán không gian qua nhiều vòng chỉnh sửa, trong khi Nano Banana cho kết quả nhanh hơn và hiển thị văn bản trong hình ảnh tốt hơn.

Hai trong số các mô hình AI tạo hình ảnh mạnh nhất hiện nay đã ra mắt trong vòng vài ngày, hứa hẹn định hình lại cách người dùng tạo nội dung. Nano Banana 2—tên nội bộ của Google cho Gemini 3.1 Flash Image—ra mắt ngày 26 tháng 2 và ngay lập tức chiếm lĩnh diễn đàn AI. Đây là phiên bản kế thừa của Nano Banana Pro, mô hình đã trở thành tiêu chuẩn vàng cho chỉnh sửa hình ảnh AI sau khi ra mắt vào tháng 11 năm 2025. Seedream 5 Lite, sản phẩm mới nhất của ByteDance trong dòng sản phẩm tạo hình ảnh, ra mắt vài ngày trước đó. Trong khi mô hình trước đó được Google quảng bá rầm rộ, thì Seedream lại lặng lẽ ra mắt mà gần như không có thông cáo báo chí. Dù lượng thông tin về hai mô hình chênh lệch lớn, khả năng của chúng lại gần như ngang nhau. 

Điều gì làm nên sự khác biệt lớn? Cả hai mô hình đều dựa trên ý tưởng cốt lõi là cung cấp cho trình tạo hình ảnh khả năng suy nghĩ trước khi vẽ. Điều này bao gồm tích hợp tìm kiếm web theo thời gian thực trước khi bắt đầu tạo hình, khả năng suy luận nhiều bước để hiểu các yêu cầu phức tạp hoặc mơ hồ, và khả năng xử lý hình ảnh tham chiếu trong các quy trình chỉnh sửa mở rộng. Đây là một bước chuyển thực sự so với các mô hình tạo hình của một năm trước, khi Stable Diffusion được xem là bước đột phá. Cả hai đều xuất ra hình ảnh độ phân giải lên đến 4K. Cả hai hỗ trợ đầu vào nhiều hình ảnh tham chiếu để duy trì tính nhất quán trong quy trình. Cả hai có thể giữ được sự nhất quán về mặt hình ảnh giữa các nhân vật và đối tượng trong cùng một phiên làm việc.

Cả hai đều có thể tạo ra văn bản kiểu dáng, dễ đọc trong hình ảnh, dù không hoàn hảo như nhau. Và cả hai đã gia nhập thị trường đã có GPT Image 1.5 của OpenAI, Flux.2 của Black Forest Labs, cùng với danh mục các mô hình Trung Quốc cạnh tranh gay gắt về giá và tính linh hoạt. Nhưng đâu mới là lựa chọn tốt nhất cho người dùng cuối? Chúng tôi đã thử nghiệm cả hai để giúp tìm câu trả lời. So sánh kỹ thuật, giá cả Khoảng cách về giá là điều đầu tiên cần hiểu rõ. Google định giá Nano qua API Gemini là 60 USD cho mỗi triệu token hình ảnh đầu ra. Thực tế, điều này tương đương khoảng 0.045 USD cho hình 512px, 0.067 USD ở độ phân giải 1K, 0.101 USD ở 2K, và 0.151 USD ở 4K. Seedream tính phí cố định 0.035 USD cho mỗi hình, bất kể độ phân giải đầu ra là bao nhiêu, nên với bất kỳ kích thước nào trên 512px, Seedream là lựa chọn rẻ hơn. Ở 4K, Nano đắt hơn gấp bốn lần so với Seedream cho mỗi hình. Đối với các quy trình sản xuất số lượng lớn, chi phí này nhanh chóng cộng dồn. Việc phân phối cũng theo các đường khác nhau hoàn toàn. Nano hoạt động trên toàn bộ hệ sinh thái người tiêu dùng và nhà phát triển của Google, gồm ứng dụng Gemini, Chế độ AI của Google Search, Google Lens, AI Studio, Vertex AI, và Google Flow cho tạo video. Nó tích hợp trong hạ tầng mà hàng trăm triệu người đã sử dụng hàng ngày. Seedream tiếp cận người dùng qua các ứng dụng sáng tạo CapCut và Jianying của ByteDance, qua các nền tảng tổng hợp API của bên thứ ba, và qua Dreamina, giao diện tạo hình ảnh riêng của ByteDance. Một điểm khác biệt lớn là Seedream có thể chạy cục bộ. Google không cho phép điều này.

Trải nghiệm nền tảng cũng là một điểm cần xem xét. Gemini là chatbot trước, trình tạo hình ảnh sau. Nó tạo hình rất tốt và nhanh; tốc độ của Google đúng như lời hứa. Nhưng bạn làm việc trong một giao diện hội thoại không được thiết kế cho quy trình hình ảnh lặp đi lặp lại. Dreamina được xây dựng đặc biệt cho tạo hình ảnh. Nó có công cụ chuyên dụng để quản lý tham chiếu, chỉnh sửa nhiều bước, và kiểm soát phối cảnh. Ngoài ra, hàng đợi tạo hình của Dreamina mất nhiều thời gian hơn đáng kể so với Nano qua giao diện Gemini. Với thử nghiệm nhanh hoặc tạo một hình duy nhất, Gemini nhanh hơn. Nhưng với các phiên chỉnh sửa nhiều vòng liên tục, cấu trúc của Dreamina rõ ràng hơn. Về kiểm duyệt nội dung, Gemini từ chối làm việc với người thật trong hầu hết các trường hợp—nó từ chối chỉnh sửa theo dạng giống người, chỉnh sửa ảnh có liên quan đến nhân vật công chúng, hoặc bất kỳ nội dung gợi dục nào liên quan đến chủ thể nhận diện rõ ràng. Seedream hoạt động theo các quy tắc thoáng hơn nhiều. ByteDance cho phép chỉnh sửa hình ảnh thực và làm việc với các chủ thể nhận diện rõ ràng theo cách mà Google không chấp nhận, điều này giải thích phần lớn cộng đồng người sáng tạo nội dung của Seedream. Về API, cả hai mô hình đều hỗ trợ cấu hình độ sâu suy luận. Nano cho phép nhà phát triển đặt mức suy nghĩ từ tối thiểu đến cao hoặc động, giúp mô hình suy luận qua các yêu cầu phức tạp trước khi quyết định tạo hình. Seedream tích hợp giám sát chuỗi suy nghĩ trong kiến trúc, từ đó cải thiện độ chính xác của yêu cầu trong các tác vụ tạo hình phức tạp về mặt không gian và đa ràng buộc.

Cả hai mô hình đều không làm rõ hoàn toàn quá trình suy luận cho nhà phát triển, nhưng cả hai đều hoạt động tốt hơn các mô hình trước đó khi xử lý các yêu cầu khó. Tính nhất quán nhân vật: thử nghiệm chiến dịch nhỏ

Thử nghiệm này kiểm tra khả năng duy trì danh tính nhận diện qua nhiều lần chỉnh sửa của một hình ảnh thực. Chủ thể ban đầu là một cặp đôi thật chụp tại trung tâm mua sắm. Mục tiêu là thay đổi trang phục và các yếu tố khác trong ảnh qua năm lần chỉnh sửa, giữ nguyên khuôn mặt, dáng vóc và đặc trưng hình ảnh để nhận diện xuyên suốt. Chatbot Gemini từ chối làm việc với ảnh thật hoàn toàn—phù hợp với chính sách nội dung của nó. Thử nghiệm Nano Banana 2 buộc phải truy cập trực tiếp qua API. Nano:

Kết quả của Nano, dù đẹp về mặt hình ảnh, cho thấy sự thay đổi đáng kể về danh tính vào các lần chỉnh sửa cuối cùng.

Cấu trúc cảnh vẫn giữ nguyên—môi trường đường hầm LED, góc nhìn lối đi lát gạch, vị trí biển hiệu phía sau đều nhất quán. Nhưng các chủ thể đã bị thay đổi rõ rệt. Đến cuối các vòng chỉnh sửa, người phụ nữ không còn giống ban đầu nữa. Người đàn ông gần như bị thay thế hoàn toàn: độ tuổi khác, dáng vóc khác, cấu trúc khuôn mặt khác, tóc khác. Mô hình tạo ra thứ gì đó đẹp mắt, nhưng không phải là những người thực sự có mặt. Có thể sửa chữa phần nào nếu các tham chiếu chỉnh sửa ban đầu được tải lên mà không có mặt gây nhầm lẫn cho mô hình. Seedream:

Seedream thể hiện rõ khả năng giữ danh tính tốt hơn qua cùng quy trình. Cấu trúc khuôn mặt, hình dạng cười, và góc nghiêng đầu của người phụ nữ vẫn giữ nguyên từ ảnh gốc qua nhiều vòng. Người đàn ông giữ được phần lớn dáng vóc và sự hiện diện ban đầu. Tính liên tục về tư thế giữa hai chủ thể cũng tốt hơn—vị trí tay, khoảng cách, và dáng đứng vẫn nhất quán, điều này quan trọng để tạo cảm giác như cùng một cảnh chứ không phải cảnh mới. Tuy nhiên, vẫn có những điểm nhỏ như làm mịn da nhẹ, thay đổi nhẹ vòng eo, và giảm chất lượng chung của các chủ thể. Nhưng cặp đôi vẫn nhận diện được là chính họ. Đối với quy trình chiến dịch cần các nhân vật xuất hiện liên tục trong nhiều sản phẩm sáng tạo, sự khác biệt này không nhỏ. Chỉnh sửa mở rộng và mở rộng khung cảnh Thử nghiệm mở rộng khung cảnh đã cho cả hai mô hình mở rộng hình ảnh phòng khách tối giản hiện đại sang tỷ lệ 16:9, mở rộng tự nhiên sang trái và phải, giữ nguyên ánh sáng và logic không gian. Yêu cầu đề cập tường trắng, ghế sofa màu be, bàn cà phê gỗ, và cây trong nhà—một đề bài rõ ràng với các tham số kiến trúc cụ thể. Nano:

Nano Banana 2 tạo ra kết quả sạch sẽ, liền mạch, không có dấu hiệu ghép nối hoặc dải màu không đều tại các ranh giới cắt ban đầu. Màu tường, cân bằng ánh sáng ban ngày, và chất liệu sàn đều giữ nguyên xuyên suốt phần mở rộng. Hướng ánh sáng từ cửa sổ giả vẫn hợp lý trong khung hình mở rộng. Về mặt kỹ thuật, sự pha trộn gần như hoàn hảo. Tuy nhiên, mô hình đã thêm một vài yếu tố không có trong cảnh như giỏ đựng ở bên phải và tòa nhà phía sau. Dù vậy, kết quả này rất ấn tượng so với các mô hình trước đó.

Seedream:

Seedream ban đầu tạo ra kết quả đơn giản hơn, giúp việc chỉnh sửa dễ dàng hơn. Phần mở rộng bên trái có thêm một chậu cây lớn và rèm cửa đầy đủ, cảm giác hợp lý về mặt không gian so với cửa sổ giả. Phần mở rộng bên phải gồm tường phụ, tác phẩm nghệ thuật đóng khung, và bàn thấp bằng gỗ, duy trì phong cách tối giản về vật liệu—gỗ sáng, trung tính nhẹ, không có gì trái với quy tắc thẩm mỹ ban đầu. Ánh sáng vẫn hợp lý theo hướng trong toàn bộ khung hình mở rộng. Mặt trần, đèn treo, và họa tiết sàn gỗ hình mũi tên đều giữ đúng trật tự hợp lý. Phòng trông như một khung hình rộng hơn đáng tin cậy chứ không phải là một ý tưởng ghép lại. Không phát hiện thấy lỗi hoặc artefact rõ ràng. Trong các bối cảnh sản xuất yêu cầu độ chính xác không gian và tính trung thực kiến trúc, Seedream 5 Lite là công cụ đáng tin cậy hơn. Nếu thực tế quan trọng hơn độ chính xác, Nano Banana 2 có thể là lựa chọn tốt hơn. Tạo hình ảnh phi thực tế: Thử nghiệm thumbnail YouTube Thử nghiệm này chuyển từ chỉnh sửa và mở rộng sang lĩnh vực tạo hình thuần túy với yêu cầu đặc thù cao: một thumbnail YouTube đọc “AI IMAGE WAR” kèm phụ đề tên hai mô hình, bố cục chia đôi màn hình với chữ lớn đậm bên trái, màu sắc năng lượng cao tương phản, tỷ lệ 16:9.

Tạo thumbnail đòi hỏi chính xác kiểu chữ, thứ tự bố cục rõ ràng, và năng lượng thị giác ngay lập tức—tất cả cùng lúc. Nano:

Nano hiểu rõ quy tắc thumbnail. Nó tạo ra bố cục với kiểu chữ lớn, độ tương phản cao ở bên trái, đối đầu kịch tính qua màn hình chia đôi, màu neon rực rỡ giữa cam ấm và xanh điện, kèm đường chớp trung tâm nhấn mạnh hiệu ứng đối kháng. Thứ tự tiêu đề rõ ràng—“AI IMAGE WAR” nổi bật rõ ràng với viền và hiệu ứng phát sáng giữ được ngay cả trên màn hình nhỏ của điện thoại. Chữ viết chính xác, không bị méo chính tả, không ký tự rối, khoảng cách chữ đều đặn. Khuôn mặt chi tiết cao và biểu cảm mạnh mẽ. Năng lượng hình ảnh cao. Trông đúng kiểu thumbnail thu hút nhấp chuột.

Seedream:

Seedream theo hướng khác. Thay vì tạo mặt người chân thực, nó tạo ra các biểu tượng kiểu đồ họa—như nhân vật chuối và quả cầu thần kinh phát sáng—tăng tính biểu tượng, đồ họa hơn. Bố cục rõ ràng, cấu trúc tốt, tiêu đề nổi bật, phụ đề rõ ràng, tên mô hình đóng khung để dễ nhận diện. Kiểu chữ mạnh: nét rõ, dễ đọc khi phóng to, không artefact lớn. Trong khi Nano Banana hướng đến hiệu ứng thị giác và cảm xúc mãnh liệt, Seedream tạo ra thứ gì đó ít gây sốc hơn, dễ mở rộng hơn như một biểu tượng nhận diện thương hiệu. Có thể đây là phong cách, nhưng theo ý kiến chủ quan của chúng tôi, để tối ưu CTR lan truyền mạnh mẽ, độ mãnh liệt của Nano Banana 2 có lợi thế hơn. Tạo hình ảnh thực tế: Độ chính xác đa ràng buộc Thử nghiệm cuối cùng đo lường độ chính xác của từng mô hình trong việc theo sát một yêu cầu chi tiết nhiều yếu tố mà không vi phạm hoặc hiểu sai các ràng buộc. Yêu cầu: chân dung điện ảnh của một nữ kiến trúc sư 32 tuổi trên mái nhà lúc hoàng hôn, mặc áo trench màu be, đeo kính tròn, cầm bản vẽ cuộn trong tay trái, cảnh nền là đường chân trời thành phố mờ nhẹ, ánh sáng giờ vàng với ánh sáng viền mềm, độ sâu trường ảnh nhỏ mô phỏng ống kính 50mm, tỷ lệ dọc 4:5, da chân thực, có hạt phim nhẹ. Mọi yếu tố trong danh sách đều là ràng buộc có thể thất bại độc lập.

Nano:

Nano tạo ra hình ảnh một người phụ nữ da trắng nhìn đi chỗ khác—một lựa chọn sáng tạo không được đề cập rõ trong yêu cầu, thể hiện xu hướng thích sáng tạo hơn là tuân thủ chặt chẽ các ràng buộc. Áo trench màu be, kính tròn, bản vẽ cuộn trong tay trái đều được thể hiện đúng. Mái nhà và đường chân trời mờ cũng rõ ràng, hợp lý về mặt không gian. Ánh sáng giờ vàng có mặt, nhưng hơi lạnh hơn so với tông ấm yêu cầu. Ánh sáng viền nhẹ nhàng hơn rõ ràng. Độ sâu trường ảnh tốt, nhưng cảm giác nén không gian gần như mô phỏng 35mm đến 40mm hơn là 50mm thật sự. Hạt phim rất ít, gần như không nhận biết được. Da chân thực nhưng có xu hướng làm mịn nhẹ như các hệ thống diffusion đào tạo về làm đẹp. Tổng thể thực thi tốt, chỉ có vài thay thế nhỏ do mô hình tự chọn. Seedream:

Seedream tạo ra hình ảnh một người phụ nữ châu Á nhìn thẳng vào máy ảnh—mặc định trung lập phù hợp yêu cầu không đề cập hướng nhìn. Tất cả yếu tố đều có mặt và thực hiện đúng. Ánh sáng giờ vàng rõ ràng hơn (có thể còn phóng đại), có viền sáng rõ ràng tách biệt chủ thể khỏi nền, phù hợp ý định trong yêu cầu. Độ sâu trường ảnh và tỷ lệ tiêu cự gần như mô phỏng 50mm thực sự, tỷ lệ giữa chủ thể và nền tự nhiên hơn. Da mặt chính xác, giữ micro-contrast tốt hơn và ít artefact làm mịn hơn Nano Banana. Tuy nhiên, một trong các bản vẽ cuộn bị tạo ra sai lệch, trông giống artefact hơn là phần tử đúng trong hình. Về mặt bố cục, kết quả của Seedream tập trung hơn, chính xác hơn về mặt kỹ thuật, ít thêm thắt giải thích hơn, nhưng Nano Banana tạo ra hình ảnh chân thực hơn. Một lỗi về tính nhất quán bạn có thể muốn lưu ý Trong các phiên API kéo dài với số lượng tạo hình liên tiếp lớn, cả hai mô hình đều thể hiện sự suy giảm không có ở đầu quy trình. Seedream bắt đầu tạo ra các khuôn mặt mờ, không rõ nét trên các chủ thể đã rõ nét trong các lần tạo trước. Nano bắt đầu mất hoàn toàn đặc trưng nhân vật, tạo ra các nhân vật không có mối liên hệ nhất quán với chủ thể ban đầu. Cả hai đều dường như giảm độ sâu suy luận khi thời gian kéo dài—giống như chúng đang dành ít công sức hơn cho mỗi lần tạo, càng làm nhiều lần thì càng giảm độ chính xác của chủ thể. Điều này có thể là do giới hạn tính toán cố ý, hoặc do cân bằng tải khi API bị quá tải, hoặc do kiến trúc của mô hình, không rõ từ bên ngoài. Nhưng rõ ràng đủ để lên kế hoạch trong bất kỳ quy trình sản xuất nào có chuỗi tạo dài. Cả hai đều hoạt động tốt nhất ở đầu phiên, rồi giảm dần khi kéo dài. Tốt nhất là thay vì thực hiện nhiều vòng liên tiếp, hãy yêu cầu mô hình chỉnh sửa trong một lần duy nhất một số lượng hợp lý để tránh suy giảm. Nhưng đây là nghệ thuật. Quá nhiều chỉnh sửa trong một vòng sẽ làm giảm độ trung thực của yêu cầu; quá ít thì phải chỉnh sửa nhiều lần, làm giảm tính nhất quán của chủ thể. Kết luận: Ai thắng? Nano thắng về khả năng hiển thị văn bản, tốc độ tạo hình, tích hợp hệ sinh thái, và năng lượng tạo hình. Độ chính xác của văn bản là lợi thế rõ ràng nhất—không có ký tự rối, không phông chữ không nhất quán, không lặp lại. Nó tạo nhanh. Nó hoạt động trên các sản phẩm mà hàng tỷ người đã dùng. Và khả năng tích hợp kiến thức thế giới, khi mô hình tìm kiếm web trước khi quyết định tạo ra, cho ra kết quả mang tính biên tập hơn là thẩm mỹ chung chung. Nếu quy trình của bạn sống trong hệ sinh thái của Google, nếu độ chính xác của văn bản trong hình ảnh là không thể thương lượng, hoặc nếu bạn cần vòng lặp nhanh mà không làm việc với người thật, Nano là công cụ mạnh hơn trong các điều kiện đó. Seedream thắng về chi phí, thiết kế nền tảng, linh hoạt nội dung, kỷ luật cấu trúc trong các tác vụ không gian, và khả năng giữ nhân vật qua nhiều bước chỉnh sửa.

Giá cố định 0.035 USD khiến nó trở thành lựa chọn mặc định thực tế cho bất kỳ quy trình tạo hình nào với số lượng lớn. Giao diện Dreamina chuyên dụng rõ ràng hơn cho các phiên sáng tạo kéo dài so với chatbot Gemini. Chính sách nội dung thoáng hơn mở ra các trường hợp sử dụng mà Google không tham gia. Và đối với các quy trình cần duy trì danh tính nhất quán qua nhiều lần chỉnh sửa của các chủ thể thật—điều cốt lõi của công việc chiến dịch—Seedream đều thể hiện tốt hơn trong mọi thử nghiệm chúng tôi thực hiện.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận