Vision Banana от Google: унифицированная модель зрения превосходит специализированные модели в сегментации и 3D-геометрии

Сообщение Gate News, 23 апреля — исследователи Google, включая Хэ Кайминга и Се Сайнина, опубликовали работу, представляющую Vision Banana — универсальную модель понимания изображений, созданную с помощью легкой инструкции по дообучению для уточнения на компании Nano Banana Pro (Gemini 3 Pro Image) модель генерации изображений. Ключевое нововведение унифицирует выходы всех задач компьютерного зрения в виде RGB-изображений, позволяя выполнять сегментацию, оценку глубины и предсказание нормалей поверхности посредством генерации изображений без специализированных архитектур или функций потерь.

В семантической сегментации Vision Banana превзошла специализированную модель SAM 3 на 4,7 процентного пункта на Cityscapes; в сегментации по референсному выражению она обошла SAM 3 Agent. Однако в инстанс-сегментации она уступила SAM 3. Для 3D-задач метрическая оценка глубины достигла 0,929 средней точности на четырех стандартных наборах данных, превзойдя Depth Anything V3 с 0,918, используя только синтетические данные без реальной информации о глубине или параметров камеры на этапе инференса. Оценка нормалей поверхности достигла уровня лучших на сегодняшний день результатов на трех внутренних бенчмарках.

Дообучение включало минимальный объем данных по задачам зрения, смешанный с исходным обучением генерации изображений, сохраняя способность модели к генерации — производительность совпала с оригинальной Nano Banana Pro в тестах качества генерации. В работе предлагается, что предварительное обучение генерации изображений в зрении параллельно предварительному обучению генерации текста в языке: модели учатся внутренним представлениям, необходимым для понимания изображений, во время генерации, а инструкционное дообучение лишь высвобождает эту возможность.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Anthropic готовит проактивного помощника Orbit, связывающего шесть инструментов, включая GitHub и Figma

По результатам найденного в коде, за которым следит Beating, Anthropic готовит новую проактивную функцию помощника под названием Orbit, которая подключается к Gmail, Slack, GitHub, Calendar, Drive и Figma. Функция использует механизм добровольного участия и формирует персонализированные краткие сводки из подключенных рабочих инструментов, пока

GateNews6м назад

Vertex Ventures поддерживает сингапурский стартап в области ИИ ReN3 с $5M 5 мая

Сингапурская компания в сфере корпоративного ИИ ReN3, по данным Vertex Ventures Southeast Asia and India, привлекла 5 миллионов долларов США в рамках посевного финансирования 5 мая, чтобы расширить деятельность в Юго-Восточной Азии и инвестировать в разработку продукта. Компания планирует углубить работу с партнёрами по каналам

GateNews24м назад

OpenAI запускает ChatGPT для приложения Intune с нативной интеграцией Microsoft

Согласно Telegram-каналу Beating, OpenAI выпустила ChatGPT для Intune — отдельное iOS-приложение, предназначенное для корпоративных и образовательных организаций. Приложение нативно интегрируется с Microsoft Intune, позволяя ИТ-отделам управлять приложением через их единую систему управления конечными устройствами pr

GateNews26м назад

Palantir сообщает о росте выручки за 1-й квартал на 85% до 1,633 млрд долларов, показатель Rule of 40 достигает 145%

Согласно отчёту о прибылях и убытках Palantir за 1 квартал 2026 года, выручка компании по итогам первого квартала, занимающейся аналитикой данных и ПО для ИИ, достигла $1,633 миллиарда, что на 85% больше в годовом исчислении, установив самый высокий темп роста за всю историю. Показатель компании Rule of 40 — метрика, измеряющая совокупный рост и прибыльность — взлетел до

GateNews46м назад

Meta ищет финансирование на 13 миллиардов долларов для дата-центра по данным ИИ в Техасе под руководством Morgan Stanley и JPMorgan

По сообщениям Beating, Meta ищет примерно 13 миллиардов долларов финансирования для центра обработки данных по искусственному интеллекту в Техасе; Morgan Stanley и JPMorgan возглавляют работу. Структура финансирования будет состоять в основном из долга, а остальное — из капитала, сообщают люди, знакомые с этим.

GateNews1ч назад

Lattice Semiconductor приобретает AMI за 1,65 миллиарда долларов 4 мая, расширяясь в сегмент программного обеспечения для инфраструктуры ИИ

Как сообщает Reuters, Lattice Semiconductor объявила 4 мая о намерении приобрести AMI — компанию по разработке программного обеспечения для прошивки и инфраструктуры, — за $1,65 миллиарда, чтобы расшириться в более глубокое управление ИИ-системами и облачной инфраструктурой. AMI специализируется на BIOS-прошивке и программном обеспечении Baseboard Management Controller (BMC)

GateNews1ч назад
комментарий
0/400
Нет комментариев