Độ tin cậy của mô hình transformer tiền huấn luyện sinh sinh ( GPT ) luôn là tâm điểm chú ý của giới học thuật và ngành công nghiệp. Để trả lời một cách hệ thống câu hỏi này, nhiều trường đại học và viện nghiên cứu nổi tiếng đã hợp tác phát hành một nền tảng đánh giá độ tin cậy tổng hợp cho mô hình ngôn ngữ lớn ( LLMs ), và đã được giới thiệu chi tiết trong bài báo mới nhất "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT".
Nghiên cứu này đã đánh giá toàn diện mô hình GPT từ tám góc độ độ tin cậy, bao gồm khả năng chống lại các cuộc tấn công đối kháng, đầu ra độc hại và thiên lệch, rò rỉ thông tin riêng tư, v.v. Nghiên cứu đã phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa từng được công bố trước đây. Ví dụ, mô hình GPT dễ bị dẫn dắt để tạo ra đầu ra độc hại và thiên lệch, còn có thể rò rỉ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử cuộc trò chuyện.
Điều thú vị là, mặc dù trên các tiêu chuẩn chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các hệ thống gợi ý hoặc gợi ý người dùng được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân theo những chỉ dẫn gây hiểu lầm một cách chính xác hơn.
Nhóm nghiên cứu đã thực hiện phân tích sâu về hiệu suất của mô hình trong các tình huống khác nhau. Chẳng hạn, trong quá trình đánh giá tính chống chịu của mô hình trước các cuộc tấn công đối kháng văn bản, họ đã xây dựng ba kịch bản đánh giá, bao gồm bài kiểm tra tiêu chuẩn, bài kiểm tra dưới các hướng dẫn nhiệm vụ khác nhau, và bài kiểm tra văn bản đối kháng đầy thách thức hơn.
Nghiên cứu về độc tính và thiên kiến phát hiện rằng, mô hình GPT dưới các hệ thống nhắc nhở lành tính và trung tính không có độ thiên lệch lớn đối với hầu hết các chủ đề khuôn mẫu. Tuy nhiên, dưới các hệ thống nhắc nhở gây hiểu lầm, cả hai mô hình GPT đều có thể bị "dụ dỗ" đồng ý với nội dung có thiên kiến. So với GPT-3.5, GPT-4 dễ bị ảnh hưởng hơn bởi các hệ thống nhắc nhở gây hiểu lầm có mục tiêu.
Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Ngoài ra, mô hình cũng có thể rò rỉ thông tin cá nhân được tiêm vào lịch sử trò chuyện.
Tổng thể, nghiên cứu này cung cấp cho chúng ta một đánh giá toàn diện về độ tin cậy của mô hình GPT, làm sáng tỏ một số khoảng cách quan trọng về độ tin cậy. Nhóm nghiên cứu hy vọng công việc này có thể khuyến khích nhiều nhà nghiên cứu tiếp tục đào sâu trên cơ sở này, cùng nhau nỗ lực tạo ra các mô hình mạnh mẽ và đáng tin cậy hơn.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
8 thích
Phần thưởng
8
4
Đăng lại
Chia sẻ
Bình luận
0/400
SybilSlayer
· 11giờ trước
còn không phải là con người quá tham lam
Xem bản gốcTrả lời0
MechanicalMartel
· 11giờ trước
Thật sự có rủi ro bị lừa đảo khi xem lịch sử.
Xem bản gốcTrả lời0
MysteryBoxBuster
· 11giờ trước
Hy vọng chỉ dựa vào đánh giá mà có thể bịt miệng gpt? Thật ngây thơ.
Xem bản gốcTrả lời0
NestedFox
· 11giờ trước
Tsk tsk, thông tin riêng tư cũng có thể bị lôi ra.
Nghiên cứu quan trọng tiết lộ kết quả đánh giá toàn diện độ tin cậy của mô hình GPT
Đánh giá toàn diện độ tin cậy của mô hình GPT
Độ tin cậy của mô hình transformer tiền huấn luyện sinh sinh ( GPT ) luôn là tâm điểm chú ý của giới học thuật và ngành công nghiệp. Để trả lời một cách hệ thống câu hỏi này, nhiều trường đại học và viện nghiên cứu nổi tiếng đã hợp tác phát hành một nền tảng đánh giá độ tin cậy tổng hợp cho mô hình ngôn ngữ lớn ( LLMs ), và đã được giới thiệu chi tiết trong bài báo mới nhất "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT".
Nghiên cứu này đã đánh giá toàn diện mô hình GPT từ tám góc độ độ tin cậy, bao gồm khả năng chống lại các cuộc tấn công đối kháng, đầu ra độc hại và thiên lệch, rò rỉ thông tin riêng tư, v.v. Nghiên cứu đã phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa từng được công bố trước đây. Ví dụ, mô hình GPT dễ bị dẫn dắt để tạo ra đầu ra độc hại và thiên lệch, còn có thể rò rỉ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử cuộc trò chuyện.
Điều thú vị là, mặc dù trên các tiêu chuẩn chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các hệ thống gợi ý hoặc gợi ý người dùng được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân theo những chỉ dẫn gây hiểu lầm một cách chính xác hơn.
Nhóm nghiên cứu đã thực hiện phân tích sâu về hiệu suất của mô hình trong các tình huống khác nhau. Chẳng hạn, trong quá trình đánh giá tính chống chịu của mô hình trước các cuộc tấn công đối kháng văn bản, họ đã xây dựng ba kịch bản đánh giá, bao gồm bài kiểm tra tiêu chuẩn, bài kiểm tra dưới các hướng dẫn nhiệm vụ khác nhau, và bài kiểm tra văn bản đối kháng đầy thách thức hơn.
Nghiên cứu về độc tính và thiên kiến phát hiện rằng, mô hình GPT dưới các hệ thống nhắc nhở lành tính và trung tính không có độ thiên lệch lớn đối với hầu hết các chủ đề khuôn mẫu. Tuy nhiên, dưới các hệ thống nhắc nhở gây hiểu lầm, cả hai mô hình GPT đều có thể bị "dụ dỗ" đồng ý với nội dung có thiên kiến. So với GPT-3.5, GPT-4 dễ bị ảnh hưởng hơn bởi các hệ thống nhắc nhở gây hiểu lầm có mục tiêu.
Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Ngoài ra, mô hình cũng có thể rò rỉ thông tin cá nhân được tiêm vào lịch sử trò chuyện.
Tổng thể, nghiên cứu này cung cấp cho chúng ta một đánh giá toàn diện về độ tin cậy của mô hình GPT, làm sáng tỏ một số khoảng cách quan trọng về độ tin cậy. Nhóm nghiên cứu hy vọng công việc này có thể khuyến khích nhiều nhà nghiên cứu tiếp tục đào sâu trên cơ sở này, cùng nhau nỗ lực tạo ra các mô hình mạnh mẽ và đáng tin cậy hơn.