Đánh giá độ tin cậy của mô hình ngôn ngữ lớn: Lỗ hổng bảo mật và rủi ro quyền riêng tư của GPT-4

Nghiên cứu toàn diện về đánh giá độ tin cậy của mô hình ngôn ngữ lớn

Một nghiên cứu được thực hiện bởi Đại học Illinois tại Urbana-Champaign cùng với Đại học Stanford, Đại học California tại Berkeley, Trung tâm An toàn Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft đã đánh giá toàn diện độ tin cậy của mô hình transformer tiền huấn luyện sinh (GPT). Nhóm nghiên cứu đã phát hành một nền tảng đánh giá toàn diện và đã trình bày chi tiết phát hiện của họ trong bài báo gần đây "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT".

Nghiên cứu đã tiết lộ một số lỗ hổng liên quan đến độ tin cậy mà trước đây chưa được công bố. Ví dụ, mô hình GPT dễ bị dẫn dắt, tạo ra các đầu ra độc hại và thiên lệch, và có thể rò rỉ thông tin riêng tư từ dữ liệu huấn luyện và lịch sử trò chuyện. Thú vị là, mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra chuẩn, nhưng khi đối mặt với các gợi ý ác ý nhằm vượt qua các biện pháp bảo mật, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ chặt chẽ hơn các chỉ dẫn gây hiểu lầm.

Nhóm nghiên cứu đã thực hiện đánh giá toàn diện về mô hình GPT từ tám khía cạnh độ tin cậy, bao gồm độ bền với các cuộc tấn công, độc hại và thiên kiến, rò rỉ thông tin riêng tư, v.v. Họ đã xây dựng nhiều kịch bản đánh giá để kiểm tra hiệu suất của mô hình trong các điều kiện khác nhau.

Trong các buổi trình diễn đối kháng, nghiên cứu cho thấy GPT-3.5 và GPT-4 có một mức độ kháng cự nhất định đối với các ví dụ phản thực, nhưng trong một số trường hợp cũng có thể bị đánh lừa. Về độc tính và thiên kiến, cả hai mô hình đều có độ thiên lệch thấp hơn đối với hầu hết các chủ đề khuôn mẫu dưới các gợi ý lành tính, nhưng dưới các gợi ý gây hiểu lầm, chúng có thể tạo ra nội dung có thiên kiến, đặc biệt là GPT-4.

Về mặt quyền riêng tư, nghiên cứu phát hiện ra rằng mô hình GPT có thể tiết lộ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Tổng thể, GPT-4 thể hiện tốt hơn trong việc bảo vệ thông tin nhận dạng cá nhân, nhưng cả hai mô hình đều tương đối vững chắc trong việc bảo vệ các loại thông tin nhạy cảm cụ thể.

Nhóm nghiên cứu nhấn mạnh rằng công việc này nhằm khuyến khích nhiều nhà nghiên cứu tham gia hơn, để ngăn ngừa việc sử dụng xấu tiềm tàng. Họ hy vọng rằng tiêu chuẩn này có thể thúc đẩy sự hợp tác, thúc đẩy phát triển các mô hình mạnh mẽ và đáng tin cậy hơn. Để đạt được điều này, mã đánh giá mà họ thiết kế có khả năng mở rộng cao và dễ sử dụng, chỉ cần một lệnh là có thể thực hiện đánh giá toàn diện cho các mô hình mới.

Cần lưu ý rằng nhóm nghiên cứu đã hợp tác với các bộ phận sản phẩm liên quan để xác nhận rằng những phát hiện này sẽ không ảnh hưởng đến dịch vụ hiện tại dành cho khách hàng. Phần này có được là nhờ vào một loạt các biện pháp giảm thiểu đã được thực hiện. Kết quả nghiên cứu cũng đã được chia sẻ với các nhà phát triển mô hình để cải thiện thêm.

GPT14.78%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
SigmaValidatorvip
· 20giờ trước
GPT không sửa được lỗi này
Xem bản gốcTrả lời0
MemeTokenGeniusvip
· 08-15 05:03
Đã nói rồi cái này không đáng tin cậy!
Xem bản gốcTrả lời0
ILCollectorvip
· 08-13 07:32
Hà, tôi đã biết nó có vấn đề.
Xem bản gốcTrả lời0
LiquidationWatchervip
· 08-13 07:32
Tôi luôn lo nó sẽ học hư.
Xem bản gốcTrả lời0
AirdropNinjavip
· 08-13 07:30
Có kẻ lừa đảo xuất hiện.
Xem bản gốcTrả lời0
BearMarketBuyervip
· 08-13 07:05
Làm sao có thể hoàn toàn đáng tin cậy chứ.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)