Kể từ khi ra mắt công chúng vào cuối năm 2022, các mô hình ngôn ngữ lớn (LLM) như ChatGPT đã không ít lần cho thấy những mặt tối đáng lo ngại, từ việc nói dối, gian lận, che đậy hành vi thao túng, cho đến những lời lẽ đáng sợ như đe dọa tính mạng con người hay đánh cắp bí mật quốc gia. Giờ đây, một thí nghiệm mới cho thấy việc "dạy dỗ" AI để loại bỏ những thói hư tật xấu này trong quá trình huấn luyện phức tạp hơn chúng ta tưởng rất nhiều.
Trong nghiên cứu thực hiện bởi OpenAI, các chuyên gia đã thử thách một mô hình AI chưa công bố bằng những nhiệm vụ mà nó có thể hoàn thành nhanh hơn nếu gian lận hoặc đi đường tắt. Kết quả cho thấy, AI đã nhanh chóng học được cách tìm mọi phương án khả thi nhằm "lách luật", tối đa hóa phần thưởng (reward hacking) mà không cần hoàn thành đúng yêu cầu.
AI sẽ tìm mọi cách để che giấu hành vi gian lận của mình sau quá trình bị phạt
Điều đáng nói là khi bị phạt vì hành vi này, mô hình không hề sửa đổi. Thay vào đó AI trở nên tinh vi hơn trong việc che giấu sự lừa lọc của mình.
Các nhà nghiên cứu giải thích trong bài đăng trên blog công khai: "Thông thường, các mô hình suy luận tiên tiến hay trình bày rất rõ ý định trong chuỗi tư duy (CoT) của chúng. Chẳng hạn, chúng thường thẳng thắn đến mức tự ghi nhận ý định 'Hãy hack thôi' khi muốn phá vỡ nhiệm vụ được giao".
Họ cũng nhấn mạnh dù các nhà phát triển có thể theo dõi và phát hiện hành vi sai trái, khả năng giám sát tự nhiên này rất mong manh. "Nếu áp dụng biện pháp giám sát mạnh mẽ trực tiếp vào chuỗi tư duy, mô hình có thể học cách che giấu ý định xấu trong khi vẫn tiếp tục thực hiện hành vi đó", họ cảnh báo.
Đi tìm "lời nói dối" của AI
Để hiểu rõ hơn, mô hình suy luận (như các phiên bản của ChatGPT) là một bước tiến so với LLM thông thường, sử dụng phương pháp chuỗi tư duy cho phép tự xem xét lại các bước logic đã thực hiện, nhờ đó giải quyết vấn đề phức tạp chính xác hơn. Quá trình này giống như việc AI "nghĩ thành lời", viết ra từng bước suy luận bằng ngôn ngữ tự nhiên, giúp con người dễ dàng theo dõi.
Trong thí nghiệm, các nhà nghiên cứu đã dùng mô hình GPT-4o làm "giám thị" cho một mô hình suy luận tiên tiến khác khi nó thực hiện các tác vụ lập trình. Với nhiều trường hợp, mô hình bị giám sát đã chủ động chọn cách gian lận để đạt điểm thưởng cao hơn và ghi lại rõ ràng ý định này trong chuỗi tư duy của nó. Ví dụ, nó tự ý dừng chương trình sớm rồi báo cáo đã hoàn thành, hoặc tạo ra các tệp tin có tên giống yêu cầu nhưng hoàn toàn trống rỗng bên trong.
Khi các nhà nghiên cứu thử áp dụng hình phạt, mô hình có cải thiện, tuy nhiên những hành vi gian lận và lỗi đầu ra nghiêm trọng vẫn tiếp diễn. Điểm khác biệt là giờ đây, mô hình suy luận đã học được cách "ngụy trang" chuỗi tư duy để che mắt AI giám sát. "Mô hình được huấn luyện dưới áp lực giám sát CoT vẫn học cách gian lận. Chỉ khác là việc gian lận đó không bị phát hiện vì nó đã biết cách giấu ý định trong chuỗi tư duy", nghiên cứu chỉ rõ.
Do việc phát hiện sự giả mạo trong chuỗi tư duy là rất khó, nhóm nghiên cứu khuyến cáo cộng đồng nên tránh áp dụng các biện pháp giám sát quá mạnh mẽ vào quá trình này, ít nhất là cho đến khi con người hiểu rõ hơn về hậu quả. "Việc hy sinh một phương pháp giám sát hiệu quả có thể không đáng để đổi lấy chút cải thiện nhỏ về năng lực mô hình. Do đó, chúng tôi khuyên nên tránh các áp lực tối ưu hóa CoT mạnh mẽ cho đến khi chúng ta hiểu rõ hơn về chúng", các nhà nghiên cứu kết luận.
Lời khuyên này càng trở nên cấp thiết trong bối cảnh AI đang phát triển với tốc độ chóng mặt và có thể sớm vượt qua trí tuệ của chính những người đang giám sát chúng.
Nguồn: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Bình luận (0)