V4-Pro досягає 67% частки успішних проходжень коду в внутрішньому dogfooding-тесті, наближаючись до продуктивності Opus 4.5

Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема PyTorch, CUDA, Rust і C++. Після ретельної фільтрації для оцінювання в бенчмарку було збережено 30 завдань.

V4-Pro-Max досягла 67% частки успішних проходжень коду, суттєво випередивши Sonnet 4.5 із 47% та наблизившись до Opus 4.5 із 70%. Однак вона поступається Opus 4.5 Thinking (73%) та Opus 4.6 Thinking (80%), тоді як значно перевищує Haiku 4.5 із 13%.

У внутрішньому опитуванні за участю 85 респондентів усі учасники повідомили, що щоденні робочі процеси для агентного програмування використовують V4-Pro. 52% підтримали V4-Pro як свій основний модельний вибір для кодування за замовчуванням, 39% схилялися до схвалення, і менш ніж 9% висловили незгоду. Повідомлені проблеми включали низькорівневі помилки, неправильне тлумачення неоднозначних запитів і інколи надмірно обдуману поведінку.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

R0AR виходить у фінальний раунд Consensus 2026 PitchFest, але з вузьким відривом не потрапляє до топ-20

За даними MetaversePost, R0AR 4 травня вийшов у фінальний раунд відбору CoinDesk Consensus 2026 PitchFest, лише трохи не потрапив до топ-20 стартапів, обраних для прямих презентацій. Інноватор у сфері Web3 та AI оцінювався разом із перспективними стартапами з усього світу на одному з майданчиків галузі

GateNews1год тому

Маск вимагає виплати $150 мільярдів як мирову угоду з OpenAI до судового розгляду; перемовини про врегулювання провалилися

Згідно з поданням до суду, Ілон Маск звернувся до президента OpenAI Грега Брокмана 26 квітня — за два дні до початку їхнього процесу в федеральному суді Окленда — щоб обговорити врегулювання. Коли Брокман запропонував, щоб обидві сторони відмовилися від своїх позовів, Маск відповів погрозами, сказавши Брокману: «До кінця

GateNews1год тому

Cursor прийняв пропозицію щодо придбання від SpaceX на 60 мільярдів доларів, але не буде партнеритися з xAI над моделями для кодування

За даними The Information, Cursor прийняв умовну пропозицію про придбання на суму 60 мільярдів доларів від SpaceX, хоча угоду ще не було остаточно завершено. Наразі компанія не планує співпрацювати з підрозділом SpaceX з AI xAI у розробці моделей для програмування. Натомість Cursor зосереджується на оптимізації його

GateNews2год тому

Haun Ventures закриває фонд на 1 мільярд доларів 4 травня, розподіляє капітал між ранніми та пізніми криптоінвестиціями

За даними Bloomberg, Haun Ventures завершила раунд залучення $1 мільярд 4 травня, при цьому $500 мільйонів було виділено на інвестиції на ранній стадії та $500 мільйонів — на пізніші інвестиції. Фонд спрямовуватиме капітал протягом наступних двох-трьох років, націлюючись на стартапи у сфері криптовалют і блокчейну, а також розширюватиме

GateNews2год тому

OpenAI збільшує $4 мільярда для запуску спільного підприємства з розгортання, оціненого в 10 мільярдів доларів

За даними BlockBeats, 4 травня OpenAI залучила понад $4 мільярда для створення нового спільного підприємства, зосередженого на допомозі компаніям впроваджувати її програмне забезпечення з штучного інтелекту. Підприємство під назвою The Deployment Company підтримують 19 інвесторів, зокрема TPG Inc., Brookfield Asset Management,

GateNews3год тому

Чому одні вважають, що ШІ змінить світ, а інші — що нічого особливого не станеться? Два діагнози від Карпаті

Кархарті вказав, що розрив у тому, як люди сприймають можливості ШІ, походить із двох діагнозів: 1) люди користувалися лише безплатними/старішими версіями моделей і не можуть відобразити реальну потужність найсучасніших агентних моделей; 2) зростання здібностей є помітним лише в дуже технічних сферах і має асиметричний характер. Це призводить до того, що платні користувачі та пересічні читачі бачать різні явища, через що виникає взаємне непорозуміння між паралельними світами. Урок для читачів на Тайвані полягає в тому, що лише практичне використання найсучасніших моделей для виконання виробничих завдань і перевірки підстав для висновків може допомогти уникнути того, щоб медіаміфи керували сприйняттям.

ChainNewsAbmedia3год тому
Прокоментувати
0/400
Немає коментарів