Всередині прориву Image AI: як новітні моделі Google та ByteDance конкурують між собою

Decrypt

Коротко

  • Обидві моделі вводять багатоступеневе логічне мислення перед генерацією зображень, що дозволяє більш надійно обробляти складні запити, референсні зображення та розширені робочі процеси редагування порівняно з попередніми системами дифузії.
  • Seedream пропонує ціну нижчу за Google і дозволяє локальне виконання та редагування реальних зображень, тоді як Nano Banana тісно інтегрована у екосистему Google для споживачів і підприємств.
  • Тестування показало, що Seedream краще зберігає ідентичність персонажів і просторову послідовність під час багатократних редагувань, тоді як Nano Banana забезпечує швидший вивід і кращу обробку тексту всередині зображень.

Два з найпотужніших AI-моделей для створення зображень, доступних наразі, були запущені майже одночасно цього тижня і обіцяють змінити спосіб створення контенту користувачами. Nano Banana 2 — внутрішня назва Google для Gemini 3.1 Flash Image — з’явилася 26 лютого і майже одразу стала предметом обговорень у сфері AI. Це наступник Nano Banana Pro, моделі, яка стала еталоном для редагування AI-зображень після її запуску у листопаді 2025 року. Seedream 5 Lite, найновіший продукт ByteDance у лінійці генерації зображень, був випущений кілька днів раніше. Хоча перша модель отримала багато уваги від маркетингової машини Google, друга майже непомітно пройшла з мінімальним прес-релізом. Хоча різниця у висвітленні була значною, можливості були ближчими за характеристиками. 

У чому суть? Обидві моделі побудовані навколо однієї й тієї ж ідеї — надати генератору зображень здатність думати перед тим, як намалювати. Це означає інтеграцію пошуку в Інтернеті у реальному часі перед початком генерації, багатоступеневе логічне мислення для інтерпретації складних або неоднозначних запитів, а також здатність працювати з референсними зображеннями у розширених робочих процесах редагування. Це істотний крок уперед порівняно з моделями минулого року, коли Stable Diffusion вважалася революційною. Обидві підтримують до 4K роздільної здатності. Обидві підтримують багатозображенні референси для послідовних робочих процесів. Обидві зберігають візуальну цілісність персонажів і об’єктів у межах однієї сесії.

Обидві можуть генерувати стилізований, читабельний текст всередині зображень, хоча й не однаково добре. Вони вже конкурують з GPT Image 1.5 від OpenAI, Flux.2 від Black Forest Labs і швидко зростаючим каталогом китайських моделей, які активно змагаються у ціні та гнучкості. Але яка з них краще для кінцевого користувача? Ми протестували обидві моделі, щоб допомогти знайти відповідь. Технічне порівняння та ціноутворення Перш за все, потрібно зрозуміти різницю у ціні. Google оцінює Nano через API Gemini у $60 за мільйон токенів вихідних зображень. Це приблизно $0.045 за зображення 512px, $0.067 — 1K, $0.101 — 2K і $0.151 — 4K. Seedream стягує фіксовану ціну $0.035 за зображення незалежно від роздільної здатності, тому при будь-якому розмірі понад 512px Seedream дешевша. На 4K Nano коштує більш ніж у чотири рази дорожче за одне зображення. Це швидко накопичується при великих обсягах виробництва. Доступність також розповсюджується за різними шляхами. Nano працює у всій екосистемі Google для споживачів і розробників, у додатку Gemini, режимі AI Search, Google Lens, AI Studio, Vertex AI і Google Flow для відео. Це інфраструктура, яку щодня використовують сотні мільйонів людей. Seedream доступний через додатки ByteDance CapCut і Jianying, через сторонні платформи-агрегатори API і через Dreamina — спеціальний інтерфейс ByteDance для генерації зображень. Однією з ключових відмінностей є те, що Seedream можна запускати локально, чого Google не дозволяє.

Ще одна різниця — досвід користувача. Gemini — це чатбот, а не генератор зображень. Він дуже добре створює зображення і робить це швидко; швидкість Google підтверджується на практиці. Але ви працюєте у розмовному інтерфейсі, який не був створений для ітеративних візуальних робочих процесів. Dreamina створена спеціально для створення зображень. Вона має інструменти для управління референсами, багатоступеневого редагування і контролю композиції. Крім того, черга генерації у Dreamina займає значно більше часу, ніж у Nano через Gemini. Для швидкого тесту або одного зображення Gemini працює швидше. Для довгих багатократних сесій редагування структура Dreamina більш послідовна. Щодо модерації контенту, Gemini відмовляється працювати з реальними людьми у більшості сценаріїв — якщо запитати його про редагування портрету, фотоманіпуляцію з публічною особою або щось провокаційне з ідентифікованим суб’єктом, він відмовить. Seedream працює за набагато більш ліберальними правилами. ByteDance дозволяє редагувати реальні зображення і працювати з ідентифікованими суб’єктами у спосіб, який Google не підтримує, що пояснює значну частину популярності Seedream серед контент-мейкерів. Щодо API, обидві моделі підтримують налаштовувану глибину логіки. Nano дозволяє розробникам обирати рівень мислення — від Мінімального до Високого або Динамічного, — що дає змогу моделі обробляти складні запити перед рендерингом. Seedream реалізує контроль ланцюга думок у своїй архітектурі, що покращує точність запитів для багатозадачних і просторово складних генерацій.

Обидві моделі не роблять логіку цілком прозорою для розробника, але обидві працюють краще з важкими запитами, ніж їхні попередники без цієї функції. Послідовність персонажів: тест мінікампанії

Цей тест перевіряє, чи можуть моделі зберігати впізнавану ідентичність протягом кількох редагувань реального зображення. Оригінал — це реальна пара, сфотографована у торговому центрі. Мета — змінити їхній одяг та інші елементи у п’яти ітераціях, зберігаючи обличчя, статуру і візуальну ідентичність послідовно. Чатбот Gemini відмовився працювати з реальним фото — відповідно до політики контенту. Тестування Nano Banana 2 вимагало прямого доступу через API. Nano:

Результати Nano, хоча й виглядають акуратно, показали суттєве відхилення ідентичності у пізніших ітераціях.

Геометрія сцени збереглася — тунель з LED-освітленням, перспектива підлоги з плитки, розміщення вивісок залишилися послідовними. Але самі персонажі фактично були перероблені. До кінця ітерацій жінка вже не була тією ж, що на початку. Чоловік був майже повністю замінений: інший вік, інша статура, інша форма обличчя, інше волосся. Модель створила щось красиве, але не тих людей, що були на оригіналі. Це можна частково виправити, якщо для редагування використовувати референси без облич, які можуть заплутати модель. Seedream:

Seedream показала значно кращу збереженість ідентичності у тому ж робочому процесі. Структура обличчя, посмішка і нахил голови жінки залишалися прив’язаними до вихідного зображення протягом кількох раундів. Чоловік зберіг більше своєї початкової статури і фізичної присутності. Послідовність поз між двома персонажами також краще збереглася — розміщення рук, близькість і положення залишалися стабільними, що важливо для створення відчуття однієї сцени, а не нової. Маленькі недоліки були — легке згладжування шкіри, незначне переформовування талії і загальне погіршення якості у персонажів.

Але пара залишалася впізнаваною. Для робочого процесу кампанії, де однакові люди мають з’являтися у кількох креативних варіантах, ця різниця суттєва. Розширення та продовження полотна Тест розширення полотна полягав у тому, щоб обидві моделі розширили сучасне мінімалістичне житлове приміщення до співвідношення 16:9, природно розширюючи сцену зліва і справа, зберігаючи освітлення і просторову логіку. Запит передбачав білі стіни, бежевий диван, дерев’яний журнальний стіл і кімнатні рослини — простий технічний завдання з чіткими архітектурними параметрами. Nano:

Nano Banana 2 створила чисті, безшовні результати без видимих шовних артефактів або смуг у тональності на межі оригінального кадру. Колір стін, баланс освітлення і матеріал підлоги залишилися послідовними. Напрям освітлення з вікна продовжувався логічно у розширеному кадрі. Технічно, злиття було майже ідеальним. Але модель додала кілька елементів, яких не було у сцені, наприклад, кошик справа і будівлю на задньому плані. Втім, це дуже вражаюче порівняно з попередніми моделями.

Seedream:

Seedream була більш простою у вихідному результаті, що полегшувало редагування. Розширена ліва частина додала другий великий горщик із рослиною і повну штору, що логічно відповідало віконній зоні. Правий бік розширився у додаткову стіну, оформлене мистецтво і низький дерев’яний тумбочок, зберігаючи мінімалістичний стиль — світле дерево, м’які нейтральні кольори, нічого, що суперечить оригінальній естетиці. Освітлення залишалося послідовним по всій сцені. Плоскості стелі, розміщення підвісного світильника і візерунок підлоги залишилися логічно вирівняними. Комната виглядала більш широкою, але реалістичною, без помітних артефактів або багів. Для виробничих сценаріїв, де важлива просторовість і архітектурна точність, Seedream 5 Lite — більш надійний інструмент. Якщо важливіше реалістичність, ніж точність, краще обрати Nano Banana 2. Нереалістичне створення зображень: тест YouTube-мітки Цей тест перейшов від редагування і розширення до чистого генеративного режиму з високою специфікою: мітка YouTube з написом “AI IMAGE WAR” і підписом із назвами обох моделей, роздільний екран з великим жирним заголовком зліва, контрастні яскраві кольори і формат 16:9.

Генерація мітки вимагає точної типографіки, свідомої ієрархії композиції і миттєвої візуальної енергії — все одночасно. Nano:

Nano ідеально зрозуміла граматику міток. Вона створила композицію з великим контрастним шрифтом зліва, драматичним роздільним екраном з обличчями справа, насиченим неоновим поєднанням теплих оранжевих і електричних синіх кольорів, з центральним роздільником у вигляді блискавки, що підсилює динаміку “проти”. Заголовок чіткий — “AI IMAGE WAR” домінує візуально з обводками і світловими ефектами, що зберігаються навіть на маленьких екранах. Рендеринг тексту точний, без орфографічних помилок, з однорідним міжбуквеним інтервалом. Обличчя деталізовані і емоційно виразні. Візуальна енергія висока. Це точно мітка, яка спонукає натискати.

Seedream:

Seedream застосувала інший підхід. Замість фотореалістичних драматичних облич вона створила стилізованих маскотів — бананового персонажа і світлове нейронне ядро, що надає порівнянню більш графічний, іконографічний вигляд. Розкладка була чистою і структурованою, з домінуючим заголовком, чітким підзаголовком і кожною назвою моделі у рамці для швидкого сприйняття. Типографіка була сильною: чистий товстий шрифт, читабельний у масштабі, без великих артефактів. Там, де Nano Banana робила ставку на ефектність і емоційну насиченість, Seedream створила щось менш вибухове, більш диференційоване і масштабоване як повторюваний візуальний стиль. Це може бути стилістичним вибором, але на нашу суб’єктивну думку, для агресивної вірусної оптимізації CTR перевагу має саме кінематографічна інтенсивність Nano Banana 2. Реалістичне створення зображень: багатозадачність і точність Останній тест вимірював, наскільки точно кожна модель виконує детальний багатокомпонентний запит без порушень або неправильного тлумачення обмежень. Завдання: створити кінематографічний портрет 32-річної архітекторки на даху під час заходу сонця, у бежевому плащі і круглих окулярах, згорнутими голубцями у лівій руці, злегка розмитий фон міського горизонту, м’яке освітлення золотого часу з ніжним обрисом, мала глибина різкості, вертикальне співвідношення 4:5, реалістична текстура шкіри і тонке зерно плівки. Кожен елемент — це окреме обмеження, яке може провалитися.

Nano:

Nano створила жінку європейської зовнішності, що дивиться у сторону — це художній вибір, не передбачений у запиті, що натякає на схильність до творчої інтерпретації, а не до суворого дотримання обмежень. Бежевий плащ, круглі окуляри і голубці у руці — все правильно відтворено. Дах і розмитий горизонт присутні і переконливі. Освітлення золотого часу є, але воно трохи прохолодніше за теплі тони, передбачені запитом. Обрис обрису підсвічування менш виразний, ніж потрібно. Глибина різкості добре реалізована, але стиснення простору ближче до 35-40 мм, ніж до 50 мм. Зерно плівки мінімальне, майже непомітне. Текстура шкіри реалістична, але злегка згладжена — типовий для систем, орієнтованих на красу. Загалом, якість хороша, але з кількома дрібними виборами, зробленими моделлю самостійно. Seedream:

Seedream створила азіатську жінку, що дивиться прямо у камеру — стандартний варіант для запиту без вказівки напрямку погляду. Усі елементи присутні і правильно реалізовані. Тепло золотого часу більш виразне (можливо, навіть перебільшене), з чітко визначеним обрисом, що відокремлює суб’єкта від фону. Глибина різкості імітує реальний 50 мм, природно пропорційно. Текстура шкіри деталізована, з кращим мікроконтрастом і меншими артефактами згладжування, ніж у Nano Banana. Однак один з голубців був неправильно згенерований і більше схожий на артефакт, ніж на елемент сцени. Загалом, результат Seedream більш центрований і технічно точний, менше інтерпретаційних додатків, але Nano Banana створила більш реалістичне зображення. Можлива проблема з узгодженістю Під час тривалих сесій API з високим обсягом послідовних генерацій обидві моделі демонстрували деградацію, якої не було на початку роботи. Seedream почала видавати розмиті, нечіткі обличчя у тих персонажів, які раніше були чітко прорендерені. Nano втрачала ідентичність персонажів і починала генерувати образи, що не мали зв’язку з початковими. Обидві моделі зменшували глибину логіки з часом — ніби менше зусиль витрачали на кожну генерацію, оскільки вже зробили багато. Це може бути навмисним обмеженням обчислювальних ресурсів, балансуванням навантаження або архітектурною особливістю, — важко сказати зовні. Але це потрібно враховувати у довгих виробничих ланцюжках. Обидві моделі працюють краще на початку сесії і погіршуються при тривалому навантаженні. Рекомендується не робити багато ітерацій у одному запуску, а запитувати модель про кілька редагувань за один раз, щоб уникнути деградації. Загалом, це мистецтво: занадто багато редагувань за один раунд погіршують відповідність запиту, а занадто мало — вимагає повторних ітерацій, що знижує послідовність персонажів. Висновок: хто переможе? Nano перемагає у рендерингу тексту, швидкості генерації, інтеграції з екосистемою і енергоспоживанні. Його головна перевага — точність тексту: без перекручень, без неправильних шрифтів, без повторів. Він швидкий, працює у продуктах, якими користуються мільярди людей, і його пошук у вебі перед рендерингом дає більш обґрунтовані результати, ніж просто естетика. Якщо ваш робочий процес в екосистемі Google, якщо точність тексту в зображеннях — обов’язкова умова, або потрібно швидко редагувати без роботи з реальними людьми — Nano буде кращим інструментом. Seedream виграє за ціною, дизайном платформи, гнучкістю контенту, структурною дисципліною у просторових задачах і збереженням персонажів під час багатоступеневого редагування.

Фіксована ціна $0.035 робить її практичною за замовчуванням для будь-якого потоку з високим обсягом створення зображень. Інтерфейс Dreamina більш послідовний для довгих творчих сесій, ніж чатбот Gemini. Ліберальна політика контенту відкриває можливості, які Google не підтримує. І для робочих процесів, де важливо зберігати ідентичність реальних суб’єктів у кількох ітераціях — Seedream показала себе краще у всіх тестах, що ми проводили.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів