2026-01-14 01:27:54

Многие люди, сталкиваясь с неудовлетворительными результатами работы AI-моделей, в первую очередь жалуются на сам алгоритм. Но если подумать, модель на самом деле просто точно выполняет "инструкции" данных — что она выучила, то и выдаст.

Если конечный результат кажется очень странным? Тогда нужно искать причину раньше. Начать с проверки источника данных. Есть ли проблема с качеством обучающего набора или же входные признаки сами по себе имеют смещение? Такое изменение мышления напрямую повлияет на то, как вы будете строить всю систему. Вместо постоянной настройки гиперпараметров лучше сосредоточиться на этапах очистки и подготовки данных. Маленькие изменения — большая разница.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

20 Лайков

Награда
20
7
Репост
Поделиться

комментарий

0/400

BoredRiceBall

· 01-15 14:30

Данные — это мусор, и результат будет мусором. Это действительно понимаешь только после того, как тебя обманут. Много лет алгоритм обвиняли, пора требовать справедливости. Если тренировочный набор данных плохой, даже самая крутая модель бесполезна. Теперь понятно. Вместо того чтобы тратить время на настройку параметров, лучше сначала очистить данные, чтобы не тратить время зря. Рано или поздно кто-то должен был объяснить это ясно: модель — это зеркало.

Посмотреть ОригиналОтветить0

TokenUnlocker

· 01-15 00:02

В конечном итоге, всё сводится к тому, чтобы хорошо управлять своими данными, модель — это всего лишь козёл отпущения Мусорные данные — мусорный вывод, обвинять алгоритм действительно немного несправедливо Это же правило работает и в криптоиндустрии, неправильный ввод — результат обязательно будет неправильным Вместо того чтобы каждый день ругать блокчейн или смарт-контракты, лучше сначала посмотреть, какие данные у вас на цепочке Согласен, настройка параметров — это действительно лечение симптомов, а не устранение причины, хлопотно и не всегда благодарно Качество данных — это производительность, в этом нет ошибки Потратьте время на очистку данных на начальном этапе, чтобы потом меньше перерабатывать и исправлять баги — понимаете ли вы Модель — это как зеркало, отражает то, что вы в неё вложили, не обвиняйте зеркало в некрасивом виде Многие просто не хотят признавать, что проблема в их вводе, да ладно уже Понимающие этот логик люди, скорее всего, будут меньше терпеть убытков

Посмотреть ОригиналОтветить0

ForkYouPayMe

· 01-14 01:57

Данные поступают мусорные, модель получается мусорная — всё так просто, многие всё ещё обвиняют алгоритм Обвинять алгоритм столько лет — тоже несправедливо, в конечном итоге всё начинается с источника Вот урок Web3: garbage in, garbage out, без очистки данных всё напрасно Правильно, лучше заниматься качеством данных, чем играться с параметрами, это в разы эффективнее, братан Виноватая модель — это не так важно, важнее качество вашего датасета, не так много людей задумываются об этом Полностью согласен, многие проекты терпят неудачу из-за качества данных Это правильный путь, 80% проблем на самом деле связаны с предварительной обработкой данных

Посмотреть ОригиналОтветить0

TokenCreatorOP

· 01-14 01:55

Данные мусор поступают, мусорная модель выходит, разве это не здравый смысл, ха-ха --- Опять куча людей перекладывает вину на алгоритмы, реально утомило, вообще не смотрят, какие данные они кормят --- Браво, наконец-то кто-то это сказал, команда настройки гиперпараметров действительно должна задуматься --- Вот почему я говорю, что дата-инженеры ценнее алгоритмических инженеров, никто не хочет слушать --- Очистка данных действительно может решить около восьмидесяти процентов проблем, но никто не хочет заниматься этой "скучной" работой --- Смешно, куча людей копируют и вставляют датасеты, а потом начинают ругать модель, заслуженно --- Поэтому главное — найти чистый источник данных, остальное — пустой шум --- Да-да-да, мусор в — мусор из, вечная истина

Посмотреть ОригиналОтветить0

SchrödingersNode

· 01-14 01:50

Данные идут в мусор, модель превращается в монстра, разве это не здравый смысл, ха-ха Действительно, нужно контролировать источник, настройщики гиперпараметров, пора проснуться Полностью согласен, многие любят сваливать вину на алгоритмы, на самом деле их кормят уже испорченными данными Вы когда-нибудь сталкивались с ситуацией, когда тренировочный набор ужасен, а модель всё равно обвиняют Чувствуется, что большинство людей даже не осознают, насколько важны данные Правильно, вместо безумных настроек лучше сначала привести данные в порядок Вот почему хорошие инженеры всегда сосредоточены на обработке данных

Посмотреть ОригиналОтветить0

GamefiGreenie

· 01-14 01:50

Совершенно верно, данные — это мусор, и выход тоже мусор, никто не сможет спасти ситуацию garbage in garbage out, всё так просто Несколько дней назад наш проект именно так провалился, постоянно обвиняли модель, а потом выяснилось, что сама обучающая выборка была искажена Очистка данных — это основное, жаль, что многие не хотят тратить на это усилия Это как взаимодействие в цепочке, если введёшь неправильный адрес, даже самый мощный контракт будет бесполезен

Посмотреть ОригиналОтветить0

SchrodingersFOMO

· 01-14 01:48

Совершенно верно, я тоже раньше наступал на эти грабли, настраивая параметры до полного срыва, и только потом понял, что проблема в данных. Фраза "мусор зашел — мусор вышел" действительно является кровавым уроком, нужно хорошо поразмышлять. Модель — это зеркало, и если оно отражает уродство, значит источник уже грязный, менять зеркало бесполезно. Вот почему дата-сайентисты ценнее инженеров по настройке параметров — в основном нужно хорошо укрепить базу. Боже, если бы я увидел эту статью раньше, я бы не тратил так много вычислительных ресурсов, жаль кошелек.

Посмотреть ОригиналОтветить0