Nhiều người khi gặp phải hiệu suất của mô hình AI không như mong đợi, phản ứng đầu tiên là chê bai thuật toán. Nhưng suy nghĩ kỹ lại, mô hình thực chất chính là thực thi trung thành các "lệnh" của dữ liệu — nó học được gì, sẽ xuất ra cái đó.



Nếu kết quả cuối cùng trông có vẻ rất phi lý? Vậy thì phải truy nguyên nguồn gốc. Bắt đầu kiểm tra từ nguồn dữ liệu. Chất lượng của tập huấn luyện có vấn đề, hay đặc điểm đầu vào đã có sự lệch lạc? Thay đổi tư duy này sẽ ảnh hưởng trực tiếp đến cách bạn xây dựng toàn bộ hệ thống. Thay vì liên tục điều chỉnh tham số, tốt hơn là dành nhiều năng lượng hơn cho giai đoạn làm sạch và chuẩn bị dữ liệu. Những thay đổi nhỏ, tạo ra sự khác biệt lớn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • Đăng lại
  • Retweed
Bình luận
0/400
BoredRiceBallvip
· 01-15 14:30
Dữ liệu rác vào thì ra rác, thật sự chỉ hiểu được khi đã bị lừa rồi. Nhiều năm đổ lỗi cho thuật toán, đã đến lúc đòi công bằng. Tập huấn luyện tồi tệ, dù mô hình có xuất sắc đến đâu cũng vô ích, giờ thì đã rõ. Thay vì tinh chỉnh tham số, tốt hơn là làm sạch dữ liệu, tránh lãng phí công sức. Đã đến lúc có người nói rõ chuyện này, mô hình chính là chiếc gương.
Xem bản gốcTrả lời0
TokenUnlockervip
· 01-15 00:02
Dù sao vẫn phải quản lý tốt dữ liệu của chính mình, mô hình chỉ là người chịu trách nhiệm chính thôi Dữ liệu đầu vào tồi thì đầu ra chắc chắn cũng tệ, đổ lỗi cho thuật toán thật sự có phần oan ức Nguyên lý này cũng áp dụng trong thị trường tiền mã hóa, input không đúng thì output chắc chắn lệch lạc Thay vì ngày ngày đổ lỗi cho chain hay hợp đồng, tốt hơn hết là xem xét dữ liệu hoạt động trên chain của chính mình là gì Đồng ý, việc điều chỉnh tham số thực sự chỉ là chữa cháy, không giải quyết tận gốc, tốn công vô ích Chất lượng dữ liệu chính là năng suất, câu này không sai Dành thời gian làm sạch dữ liệu từ đầu, về sau ít phải làm thêm giờ sửa lỗi, hiểu chưa Mô hình giống như chiếc gương, phản ánh những gì bạn đưa vào, đừng trách gương xấu Nhiều người chỉ không muốn thừa nhận là do dữ liệu đầu vào của mình có vấn đề, thôi đi Những người hiểu rõ logic này chắc chắn sẽ ít gặp phải thiệt hại hơn nhiều
Xem bản gốcTrả lời0
ForkYouPayMevip
· 01-14 01:57
Dữ liệu vào là rác, mô hình ra là rác, đơn giản vậy thôi, nhiều người còn đang đổ lỗi cho thuật toán nữa Chịu oan cho thuật toán đã nhiều năm cũng đủ rồi, về cơ bản vẫn phải bắt đầu từ nguồn gốc Đây chính là bài học của Web3, garbage in garbage out, dữ liệu chưa được làm sạch thì mọi thứ đều vô nghĩa Đúng vậy, so với việc chơi tham số thì tốt hơn là làm tốt dữ liệu, hiệu quả gấp đôi gấp ba, anh bạn Đừng đổ lỗi cho mô hình mà hãy xem lại bộ dữ liệu của chính mình, nghĩ đến chuyện có nhiều người như vậy Thật sự đồng tình, bao nhiêu dự án đều thất bại vì chất lượng dữ liệu Đây mới là con đường chính, 80% vấn đề thực ra nằm ở bước tiền xử lý
Xem bản gốcTrả lời0
TokenCreatorOPvip
· 01-14 01:55
Dữ liệu rác đi vào, mô hình rác ra, chẳng phải là chân lý sao, haha --- Lại có nhiều người đổ lỗi cho thuật toán, thật sự là say rồi, hoàn toàn không nhìn xem mình đã cung cấp dữ liệu gì --- Tán thành, cuối cùng cũng có người nói ra điều này, những người điều chỉnh tham số thật sự nên tự nhìn lại bản thân --- Đây chính là lý do tại sao tôi nói kỹ sư dữ liệu còn quan trọng hơn kỹ sư thuật toán, không ai muốn nghe --- Làm sạch dữ liệu thực sự có thể giải quyết 80% vấn đề, nhưng không ai muốn làm công việc "nhàm chán" này --- Cười chết, nhiều người copy paste bộ dữ liệu rồi bắt đầu đổ lỗi cho mô hình, đáng đời --- Vì vậy, chìa khóa là phải tìm nguồn dữ liệu sạch, những thứ khác chỉ là phù du --- Đúng rồi đúng rồi, rác vào rác ra, mãi mãi là chân lý
Xem bản gốcTrả lời0
SchrödingersNodevip
· 01-14 01:50
Dữ liệu vào rác, mô hình ra quái vật, chẳng phải đó là chân lý sao haha Quả nhiên vẫn phải kiểm soát từ nguồn, các anh em điều chỉnh tham số hãy tỉnh lại đi Rất đồng tình, nhiều người thích đổ lỗi cho thuật toán, thực ra đồ họ tự cung cấp đã hỏng từ lâu rồi Các bạn có từng gặp phải kiểu tập huấn dữ liệu một đống hỗn độn rồi còn đổ lỗi cho mô hình không Cảm giác phần lớn mọi người chưa nhận thức được tầm quan trọng của chất lượng dữ liệu đâu Nói đúng rồi, thay vì điều chỉnh tham số điên cuồng, trước hết hãy làm cho dữ liệu sạch sẽ đã Đây chính là lý do tại sao các kỹ sư giỏi luôn tập trung vào việc hoàn thiện dữ liệu
Xem bản gốcTrả lời0
GamefiGreenievip
· 01-14 01:50
Nói đúng rồi, dữ liệu đầu vào là rác thì ra rác, ai cũng không cứu nổi garbage in garbage out, đơn giản vậy thôi Vài ngày trước, dự án của chúng tôi cũng gặp sự cố như vậy, luôn đổ lỗi cho mô hình, sau đó mới phát hiện ra chính tập dữ liệu huấn luyện đã bị lệch lạc Dọn dẹp dữ liệu mới là phần quan trọng nhất, tiếc là nhiều người không muốn bỏ công sức vào việc này Điều này giống như tương tác trên chuỗi, nhập sai địa chỉ thì dù hợp đồng có mạnh mấy cũng vô ích
Xem bản gốcTrả lời0
SchrodingersFOMOvip
· 01-14 01:48
Nói đúng quá rồi, trước đây cũng đã mắc phải cái bẫy này, chỉ chỉnh tham số đến mức sụp đổ, cuối cùng mới nhận ra là vấn đề dữ liệu. Câu "rác vào rác ra" thật sự là bài học đắt giá, cần phải tự kiểm điểm thật kỹ. Mô hình chính là một chiếc gương, phản chiếu ra xấu xí là do nguồn gốc đã bẩn, sửa gương cũng vô ích. Đây chính là lý do tại sao nhà khoa học dữ liệu lại có giá trị hơn kỹ sư điều chỉnh tham số, cốt lõi vẫn là phải củng cố nền tảng vững chắc. Trời ơi, nếu sớm thấy bài viết này thì đã không lãng phí quá nhiều công suất tính toán rồi, thật là xót xa cho ví tiền.
Xem bản gốcTrả lời0
  • Ghim