Vision Banana de Google: un modelo de visión unificado que supera a los modelos específicos de tareas en segmentación y geometría 3D

Mensaje de Gate News, 23 de abril — investigadores de Google, incluidos He Kaiming y Xie Saining, publicaron un artículo que presenta Vision Banana, un modelo general de comprensión visual creado mediante un ajuste fino ligero de instrucciones del modelo de generación de imágenes Nano Banana Pro (Gemini 3 Pro Image) de la empresa. La innovación clave unifica las salidas de todas las tareas de visión como imágenes RGB, lo que permite segmentación, estimación de profundidad y predicción de normales de superficie mediante generación de imágenes sin arquitecturas ni funciones de pérdida específicas de cada tarea.

En segmentación semántica, Vision Banana superó al modelo especializado SAM 3 en 4.7 puntos porcentuales en Cityscapes; en segmentación por expresiones referenciales, superó a SAM 3 Agent. Sin embargo, quedó por detrás de SAM 3 en la segmentación de instancias. Para tareas 3D, la estimación métrica de profundidad logró una precisión media de 0.929 en cuatro conjuntos de datos estándar, superando el 0.918 de Depth Anything V3, usando solo datos sintéticos sin información real de profundidad ni parámetros de cámara durante la inferencia. La estimación de normales de superficie logró resultados de vanguardia en tres benchmarks del interior.

El ajuste fino implicó un conjunto mínimo de datos de tareas de visión mezclado en el entrenamiento original de generación de imágenes, preservando las capacidades de generación del modelo: el rendimiento coincidió con el Nano Banana Pro original en pruebas de calidad de generación. El artículo propone que el preentrenamiento de generación de imágenes en visión es análogo al preentrenamiento de generación de texto en lenguaje: los modelos aprenden las representaciones internas necesarias para la comprensión de imágenes durante la generación, y el ajuste fino de instrucciones solo libera esta capacidad.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Legisladores de Colorado proponen una sustitución legal de IA para abordar las preocupaciones de la industria

Los legisladores de Colorado se están moviendo para derogar y reemplazar la ley de inteligencia artificial de 2024 del estado, SB24-205, con nuevas normas que reducen el alcance de la regulación de la IA mientras abordan las preocupaciones de la industria sobre las cargas de cumplimiento. La nueva propuesta, SB26-189, regularía los sistemas de IA utilizados en

CryptoFrontierhace3h

R0AR avanza a la ronda final del PitchFest Consensus 2026, se queda por poco fuera del Top 20

Según MetaversePost, R0AR avanzó a la ronda final de selección del CoinDesk's Consensus 2026 PitchFest el 4 de mayo, quedándose por poco fuera del top 20 de las startups seleccionadas para presentaciones en vivo. El innovador de Web3 y IA fue evaluado junto con startups de alto potencial de todo el mundo en uno de los m

GateNewshace7h

Musk busca un acuerdo de 150 mil millones de dólares con OpenAI antes del juicio; fracasan las conversaciones de acuerdo

Según un escrito judicial, Elon Musk se puso en contacto con el presidente de OpenAI, Greg Brockman, el 26 de abril, dos días antes de que comenzara su juicio en el tribunal federal de Oakland, para explorar una solución amistosa. Cuando Brockman sugirió que ambas partes retiraran sus demandas, Musk respondió con amenazas, diciéndole a Brockman: “Para el final

GateNewshace7h

Cursor acepta la oferta de adquisición de SpaceX de 60 mil millones de dólares, pero no hará una alianza con xAI en modelos de codificación

Según The Information, Cursor ha aceptado una oferta condicional de adquisición por 60 mil millones de dólares de SpaceX, aunque el acuerdo aún no se ha finalizado. La empresa actualmente no tiene planes de colaborar con la unidad de IA de SpaceX, xAI, para desarrollar modelos de codificación. En cambio, Cursor se centra en optimizarlo

GateNewshace8h

Haun Ventures cierra un fondo de 1 billón el 4 de mayo, y divide el capital entre inversiones cripto en etapas tempranas y tardías

Según Bloomberg, Haun Ventures completó una ronda de recaudación de fondos de 1 billón de dólares el 4 de mayo, con 500 millones destinados a inversiones en etapa inicial y 500 millones a inversiones en etapa avanzada. El fondo desplegará capital durante los próximos dos a tres años, con foco en startups de criptomonedas y blockchain mientras se expande

GateNewshace8h

OpenAI recauda $4 mil millones para un emprendimiento conjunto de despliegue, valorado en $10 mil millones

Según BlockBeats, el 4 de mayo, OpenAI recaudó más de $4 mil millones de dólares para establecer una nueva empresa conjunta enfocada en ayudar a las empresas a adoptar su software de inteligencia artificial. La empresa, llamada The Deployment Company, está respaldada por 19 inversores, incluidos TPG Inc., Brookfield Asset Management,

GateNewshace9h
Comentar
0/400
Sin comentarios