Perplexity offenbart Methode zum Post-Training von Web-Search-Agenten; auf Qwen3.5 basierendes Modell übertrifft GPT-5.4 bei Genauigkeit und Kosten

Sendehinweis, 23. April — Das Forschungsteam von Perplexity veröffentlichte einen technischen Artikel, der seine Post-Training-Methodik für Web-Search-Agenten im Detail beschreibt. Der Ansatz nutzt zwei Open-Source-Qwen3.5-Modelle (Qwen3.5-122B-A10B und Qwen3.5-397B-A17B) und setzt auf eine Zwei-Phasen-Pipeline: Supervised Fine-Tuning (SFT), um regelkonformes Befolgen von Anweisungen und sprachliche Konsistenz zu etablieren, gefolgt von Online Reinforcement Learning (RL), um Suchgenauigkeit und Tool-Use-Effizienz zu optimieren.

Die RL-Phase nutzt den GRPO-Algorithmus mit zwei Datenquellen: einen proprietären Multi-Hop-verifizierbaren Frage-Antwort-Datensatz, der aus internen Seed-Queries erstellt wurde, die 2–4 Reasoning-Hops mit Multi-Solver-Verifikation erfordern, sowie rubrikbasierte allgemeine Konversationsdaten, die die Einsatzanforderungen in objektiv prüfbare atomare Bedingungen umwandeln, um eine Degradation des SFT-Verhaltens zu verhindern.

Das Reward-Design verwendet gated Aggregation — Preferences-Scores tragen nur bei, wenn die Baseline-Korrektheit erreicht ist (question-answer match oder alle Rubrik-Kriterien erfüllt), wodurch verhindert wird, dass starke Preference-Signale faktische Fehler überdecken. Effizienz-Strafen verwenden innerhalb von Gruppen verankertes Ankern: Es werden glatte Strafen für Tool-Calls und für die Generationslänge angewendet, die die Baseline der korrekten Antworten in derselben Gruppe überschreiten.

Die Evaluierung zeigt, dass Qwen3.5-397B-SFT-RL eine erstklassige Performance über Such-Benchmarks hinweg erreicht. Bei FRAMES erzielt es 57,3% Genauigkeit mit einem einzelnen Tool-Call und übertrifft GPT-5.4 um 5,7 Prozentpunkte sowie Claude Sonnet 4.6 um 4,7 Prozentpunkte. Bei moderatem Budget (vier Tool-Calls) erreicht es 73,9% Genauigkeit bei $0.02 pro Query, im Vergleich zu GPT-5.4s 67,8% Genauigkeit bei $0.085 pro Query und Sonnet 4.6s 62,4% Genauigkeit bei $0.153 pro Query. Die Kostendaten basieren auf der öffentlich verfügbaren API-Preisgestaltung jedes Anbieters und schließen Caching-Optimierungen aus.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

OKX bringt das Agent Payments Protocol für KI-Geschäftszyklen auf den Markt

Die Krypto-Börse OKX hat am Mittwoch ihr Agent Payments Protocol (APP) eingeführt, einen offenen Standard, der darauf ausgelegt ist, KI-Agenten dabei zu unterstützen, vollständige Geschäftszyklen durchzuführen – über einfache Zahlungen hinaus. Laut OKX ermöglicht der Protokollsatz, dass KI-Bots „für Dienstleistungen bezahlen und sich gegenseitig bezahlen“, während er das Erstellen von Angeboten,

CryptoFrontier3Std her

KI-Finanzplattform Rogo holt $160M in Series D ein, angeführt von Kleiner Perkins in weniger als 3 Monaten

Laut Beating hat die für Hochfrequenz-Finanzszenarien entwickelte KI-Plattform Rogo im April 2026 eine $160 -Millionen-Series-D-Finanzierungsrunde abgeschlossen, angeführt von Kleiner Perkins, mit Beteiligung von Sequoia, Thrive Capital, Khosla Ventures und J.P. Morgan. Die Finanzierung kam weniger als drei Monate

GateNews9Std her

Bestimmte CEX führen das Agent Payments Protocol ein und unterstützen 4 Zahlungsarten, 9 Partner darunter die Ethereum Foundation

Laut offiziellen Angaben hat eine große Kryptobörse das Agent Payments Protocol (APP) gestartet, einen offenen Zahlungsstandard für kommerzielle Transaktionen von KI-Agenten am 29. April. Das Protokoll ermöglicht es KI-Agenten, Einzelzahlungen, Sammelzahlungen, nutzungsabhängige Zahlungen und Treuhandzahlungen zu verarbeiten

GateNews9Std her

China blockiert am 29. April die von Meta unterstützte Manus-AI-Übernahme unter Berufung auf Bedenken hinsichtlich Technologie- und Datensicherheit

Laut PANews hat am 29. April das Amt für Überprüfung der Investitionssicherheit der Nationalen Entwicklungs- und Reformkommission Chinas eine ausländische Übernahme des Manus-Projekts verboten und verlangt, dass die Transaktion beendet wird. Manus, als der weltweit erste Agent für allgemeine künstliche Intelligenz angepriesen, hatte

GateNews9Std her

KITE AI-Mainnet startet am 29. April auf Avalanche als zweckbestimmte Blockchain für KI-Agenten

Laut Altcoin Buzz startete das KITE AI-Mainnet am 29. April auf Avalanche und brachte eine dedizierte Layer-1-Blockchain auf den Weg, die für autonome KI-Agenten entwickelt wurde. Die Plattform integriert Identität und native Zahlungsfunktionen, um KI-Agenten zu ermöglichen, ohne Reibungsverluste zu operieren, Transaktionen durchzuführen und zu skalieren. Avalanch

GateNews13Std her

B.AI und deBridge gehen Partnerschaft ein, um plattformübergreifende Infrastruktur für AI-Agenten aufzubauen

Laut ChainCatcher haben B.AI und deBridge am 29. April eine strategische Partnerschaft angekündigt, um eine intent-gesteuerte plattformübergreifende Infrastruktur zu entwickeln. Die Zusammenarbeit zielt darauf ab, eine nahtlose plattformübergreifende Ausführung für eine skalierbare AI-Agent-Ökonomie bereitzustellen. Das 0-TVL-Modell von deBridge und die gasfreie plattformübergreifende Technologie werden die Entwicklung effizienter, sicherer autonomer Handelssysteme für die Partnerschaft unterstützen und die plattformübergreifende Ausführung im Zeitalter der AI Agents beschleunigen.

GateNews14Std her
Kommentieren
0/400
Keine Kommentare