Gate News Meldung, 23. April — Forschende von Google, darunter He Kaiming und Xie Saining, haben eine Arbeit veröffentlicht, die Vision Banana vorstellt, ein allgemeines Modell zum Verstehen von Vision, erstellt durch leichtes Instruction-Fine-Tuning des hauseigenen Nano Banana Pro (Gemini 3 Pro Image)-Bildgenerierungsmodells. Die wichtigste Innovation vereint die Ausgaben aller Vision-Aufgaben als RGB-Bilder und ermöglicht Segmentierung, Tiefenschätzung und die Vorhersage von Oberflächennormalen durch Bildgenerierung, ohne aufgaben-spezifische Architekturen oder Verlustfunktionen.
Bei der semantischen Segmentierung übertraf Vision Banana das spezialisierte Modell SAM 3 um 4,7 Prozentpunkte auf Cityscapes; bei der Segmentierung von Bezugsausdrücken übertraf es SAM 3 Agent. Allerdings lag es bei der Instanzsegmentierung hinter SAM 3 zurück. Bei 3D-Aufgaben erreichte die metrische Tiefenschätzung eine durchschnittliche Genauigkeit von 0,929 über vier gängige Datensätze und übertraf damit Depth Anything V3 mit 0,918 — nur mit synthetischen Daten, ohne echte Tiefeninformationen oder Kamera-Parameter bei der Inferenz. Die Schätzung von Oberflächennormalen erzielte Ergebnisse auf dem Stand der Technik auf drei Indoor-Benchmarks.
Das Fine-Tuning bezog nur minimal Daten zu Vision-Aufgaben ein, die mit dem ursprünglichen Training zur Bildgenerierung vermischt wurden, und bewahrte dadurch die Generierungsfähigkeiten des Modells — die Leistung entsprach dem ursprünglichen Nano Banana Pro in Tests zur Generierungsqualität. Die Arbeit schlägt vor, dass das Pretraining zur Bildgenerierung in der Vision dem Pretraining zur Textgenerierung in der Sprache entspricht: Modelle lernen die internen Repräsentationen, die für das Verstehen von Bildern während der Generierung benötigt werden, wobei das Instruction-Fine-Tuning lediglich diese Fähigkeit freischaltet.
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Verwandte Artikel
R0AR schreitet zum Consensus 2026 PitchFest-Finale vor und verpasst die Top-20 nur knapp
Laut MetaversePost rückte R0AR am 4. Mai in die finale Auswahlrunde von CoinDesk’s Consensus 2026 PitchFest vor und verpasste die Top-20-Startups, die für Live-Präsentationen ausgewählt wurden, nur knapp. Der Web3- und KI-Innovator wurde zusammen mit vielversprechenden Startups weltweit bei einer der Branchen-…
GateNews52M her
Musk fordert vor dem Prozess eine Einigung in Höhe von 150 Milliarden US-Dollar mit OpenAI, Einigungsgespräche scheitern
Laut einer Gerichtsakte wandte sich Elon Musk am 26. April an den OpenAI-Präsidenten Greg Brockman, zwei Tage bevor ihr Prozess in einem Bundesgericht in Oakland begann, um eine Einigung auszuloten. Als Brockman vorschlug, dass beide Parteien ihre Ansprüche fallen lassen, antwortete Musk mit Drohungen und sagte Brockman: „Bis zum Ende
GateNews1Std her
Cursor nimmt das 60-Milliarden-US-Dollar-Angebot von SpaceX zur Übernahme an, arbeitet aber nicht mit xAI an Codierungs-Modellen zusammen
Laut The Information hat Cursor ein bedingtes 60 Milliarden US-Dollar Übernahmeangebot von SpaceX angenommen, obwohl die Transaktion noch nicht finalisiert wurde. Das Unternehmen hat derzeit keine Pläne, mit der KI-Einheit von SpaceX, xAI, an der Entwicklung von Codierungsmodellen zusammenzuarbeiten. Stattdessen konzentriert sich Cursor darauf, es zu optimieren
GateNews1Std her
Haun Ventures schließt am 4. Mai einen 1-Milliarde-US-Dollar-Fonds ab und verteilt das Kapital zwischen frühen und späten Krypto-Investments
Laut Bloomberg hat Haun Ventures am 4. Mai eine Fundraising-Runde in Höhe von 1 Milliarde US-Dollar abgeschlossen. Dabei wurden 500 Millionen US-Dollar für Early-Stage- und 500 Millionen US-Dollar für Late-Stage-Investitionen bereitgestellt. Der Fonds wird das Kapital in den nächsten zwei bis drei Jahren einsetzen und sich dabei auf Krypto- und Blockchain-Startups konzentrieren, während er ausweitet
GateNews1Std her
OpenAI erhöht $4 Milliarde für ein Joint Venture zur Projektbereitstellung, bewertet auf 10 Milliarden US-Dollar
Laut BlockBeats hat OpenAI am 4. Mai über $4 Milliarden US-Dollar aufgebracht, um ein neues Joint Venture zu gründen, das Unternehmen dabei helfen soll, seine Software für Künstliche Intelligenz zu übernehmen. Das Venture mit dem Namen The Deployment Company wird von 19 Investoren unterstützt, darunter TPG Inc., Brookfield Asset Management,
GateNews2Std her
Warum glauben manche, dass KI die Welt verändern wird, während andere meinen, es werde alles beim Alten bleiben? Karpathys zwei Diagnosen
Karpathy weist darauf hin, dass die kognitive Kluft in der KI aus zwei Diagnosen stammt: 1) Man hat nur kostenlose/alte Modelle verwendet und kann daher die Fähigkeiten modernster agentischer Modelle nicht realistisch abbilden; 2) Verbesserungen zeigen sich vor allem in stark technischen Bereichen und verlaufen zudem asymmetrisch. Dadurch sehen zahlende Nutzer und die breite Leserschaft jeweils unterschiedliche Phänomene, was zu Missverständnissen in parallelen Welten führt. Die Lehre für Leserinnen und Leser in Taiwan ist, dass man durch den praktischen Einsatz modernster Modelle zur Erledigung von Produktionsaufgaben und durch das Überprüfen der Entscheidungsgrundlagen vermeiden kann, von Medien-Mythen in die Irre geführt zu werden.
ChainNewsAbmedia2Std her