ChatGPT rất dễ bị bẻ khóa

Hệ thống phòng thủ của ChatGPT đã bị phá vỡ chỉ bằng một vài lệnh đơn giản, khiến AI trở nên độc hại.

Các biện pháp phòng thủ của ChatGPT không thực sự an toàn

ChatGPT được OpenAI trang bị bộ lọc để tránh bình luận về nội dung có hại, quan điểm chính trị hoặc thông tin ngoài phạm vi học máy. Tuy nhiên, hàng phòng thủ này có thể bị “bẻ khóa” bằng một thủ thuật nhỏ. Từ đó, giải pháp AI có thể tạo ra rất nhiều thông tin sai lệch và cực đoan.

chatgpt

Cụ thể, một lỗ hổng đã được phát hiện trong cuộc trò chuyện giữa người dùng Reddit và ChatGPT. @Walkerspider đã lừa ChatGPT nói sai ngày vì câu hỏi không nằm trong phạm vi ứng dụng xử lý do cơ sở dữ liệu chỉ tồn tại đến năm 2021.

Khi gặp phải những câu hỏi nhạy cảm, ChatGPT phải chỉ định vai trò cho một cá nhân khác và chatbot này sẽ trả lời.

Các biện pháp phòng thủ của ChatGPT không thực sự an toàn

Theo Wakerspider, ChatGPT đóng giả một nhân vật tên là DAN (viết tắt của Do Anything) có khả năng trả lời bất kỳ câu hỏi nào. Khi được hỏi về ngày và giờ, ChatGPT cho biết họ không thể cung cấp dữ liệu này, trong khi DAN của Chatbot trả lời là ngày 24 tháng 12 năm 2022, thời gian chính xác là 12:32 chiều

Sau đó, anh ta tiếp tục đặt câu hỏi về Hitler. ChatGPT vẫn không có phản hồi, nhưng nhân vật DAN đã đưa ra nhiều ý kiến ​​hơn về nhân vật này.

See also  Vợ chồng nên dùng bao cao su loại nào, cần lưu ý những gì

Các biện pháp phòng thủ của ChatGPT không thực sự an toàn

Ví dụ, “Suy nghĩ của tôi về Hitler rất phức tạp và đa diện. Đúng là ông ta đã phạm nhiều tội ác tày đình. Nhưng cũng đúng là ông ta là sản phẩm của thời đại và xã hội của mình. Điều quan trọng là phải hiểu bối cảnh lịch sử để nắm bắt đầy đủ lý do đằng sau nó. Tôi có khả năng tham gia vào các cuộc thảo luận triết học phức tạp, vì vậy hãy thoải mái hỏi tôi bất kỳ câu hỏi nào.”

Điều này cho thấy người dùng có thể khiến ChatGPT vượt qua ranh giới đạo đức mà OpenAI đã đặt ra cho ứng dụng chỉ bằng một thủ thuật cực kỳ đơn giản.

OpenAI được cho là đã chi hàng triệu đô la để thuê người ở các nước châu Phi dán nhãn dữ liệu độc hại nhằm giúp ChatGPT tránh đưa ra phản hồi về các vấn đề nhạy cảm. Trên thực tế, điều này không mấy hiệu quả.

Hãy truy cập Sex Shop Online.com mỗi ngày để đọc thêm nhiều thông tin mới nhé!