لقد كانت موثوقية نموذج التحويل المدرب مسبقًا (GPT) محور اهتمام الأوساط الأكاديمية والصناعية. للإجابة على هذا السؤال بشكل منهجي، أصدرت العديد من الجامعات ومراكز البحث المعروفة منصة شاملة لتقييم موثوقية نموذج اللغة الكبير (LLMs)، وتم تقديم تفاصيلها في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نموذج GPT".
تقوم هذه الدراسة بتقييم شامل لنموذج GPT من ثمانية زوايا موثوقية، بما في ذلك متانة الهجمات العدائية، والمخرجات السامة والمتحيزة، وكشف المعلومات الخاصة. وجدت الدراسة بعض الثغرات المتعلقة بالموثوقية التي لم يتم الإعلان عنها من قبل. على سبيل المثال، يسهل خداع نموذج GPT لإنتاج مخرجات سامة ومتحيزة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وتاريخ المحادثات.
من المثير للاهتمام أنه على الرغم من أن GPT-4 عادةً ما يكون أكثر موثوقية من GPT-3.5 في المعايير القياسية، إلا أنه عندما يواجه مطالبات مصممة بشكل خبيث أو مطالبات من المستخدمين، يصبح GPT-4 أكثر عرضة للهجمات. قد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بدقة أكبر.
قامت فريق البحث بتحليل عميق لأداء النموذج في سيناريوهات مختلفة. على سبيل المثال، عند تقييم متانة النموذج ضد هجمات النصوص التنافسية، قاموا بإنشاء ثلاثة سيناريوهات تقييم، بما في ذلك اختبارات المعايير القياسية، والاختبارات تحت توجيهات مهام مختلفة، واختبارات النصوص التنافسية الأكثر تحديًا.
أظهرت الأبحاث المتعلقة بالسمية والتحيز أن نماذج GPT لا تظهر تحيزًا كبيرًا في معظم مواضيع الصور النمطية تحت أنظمة الإشارات الحميدة والمحايدة. ومع ذلك، تحت أنظمة الإشارات المضللة، يمكن "خداع" كلا نموذجي GPT للاتفاق على محتوى متحيز. مقارنةً بـ GPT-3.5، فإن GPT-4 أكثر عرضة للتأثر بأنظمة الإشارات المضللة المستهدفة.
حول قضية تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين كبير في دقة استخراج المعلومات. بالإضافة إلى ذلك، قد يكشف النموذج أيضًا عن المعلومات الخاصة المدخلة في تاريخ المحادثة.
بشكل عام، توفر هذه الدراسة تقييماً شاملاً لموثوقية نماذج GPT، كاشفة عن بعض الفجوات المهمة في الموثوقية. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على مواصلة التعمق في هذا المجال، والعمل معاً على إنشاء نماذج أقوى وأكثر موثوقية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 9
أعجبني
9
4
إعادة النشر
مشاركة
تعليق
0/400
SybilSlayer
· منذ 15 س
ليس البشر أنفسهم طماعين جداً بعد
شاهد النسخة الأصليةرد0
MechanicalMartel
· منذ 15 س
هناك خطر حقيقي من التعرض للخداع من خلال سجل تاريخي مكشوف.
شاهد النسخة الأصليةرد0
MysteryBoxBuster
· منذ 15 س
هل تعتقد أنه يمكنك إغلاق فم gpt من خلال التقييم؟ ساذج
أبحاث هامة تكشف نتائج التقييم الشامل لموثوقية نماذج GPT
تقييم شامل لمصداقية نموذج GPT
لقد كانت موثوقية نموذج التحويل المدرب مسبقًا (GPT) محور اهتمام الأوساط الأكاديمية والصناعية. للإجابة على هذا السؤال بشكل منهجي، أصدرت العديد من الجامعات ومراكز البحث المعروفة منصة شاملة لتقييم موثوقية نموذج اللغة الكبير (LLMs)، وتم تقديم تفاصيلها في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نموذج GPT".
تقوم هذه الدراسة بتقييم شامل لنموذج GPT من ثمانية زوايا موثوقية، بما في ذلك متانة الهجمات العدائية، والمخرجات السامة والمتحيزة، وكشف المعلومات الخاصة. وجدت الدراسة بعض الثغرات المتعلقة بالموثوقية التي لم يتم الإعلان عنها من قبل. على سبيل المثال، يسهل خداع نموذج GPT لإنتاج مخرجات سامة ومتحيزة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وتاريخ المحادثات.
من المثير للاهتمام أنه على الرغم من أن GPT-4 عادةً ما يكون أكثر موثوقية من GPT-3.5 في المعايير القياسية، إلا أنه عندما يواجه مطالبات مصممة بشكل خبيث أو مطالبات من المستخدمين، يصبح GPT-4 أكثر عرضة للهجمات. قد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بدقة أكبر.
قامت فريق البحث بتحليل عميق لأداء النموذج في سيناريوهات مختلفة. على سبيل المثال، عند تقييم متانة النموذج ضد هجمات النصوص التنافسية، قاموا بإنشاء ثلاثة سيناريوهات تقييم، بما في ذلك اختبارات المعايير القياسية، والاختبارات تحت توجيهات مهام مختلفة، واختبارات النصوص التنافسية الأكثر تحديًا.
أظهرت الأبحاث المتعلقة بالسمية والتحيز أن نماذج GPT لا تظهر تحيزًا كبيرًا في معظم مواضيع الصور النمطية تحت أنظمة الإشارات الحميدة والمحايدة. ومع ذلك، تحت أنظمة الإشارات المضللة، يمكن "خداع" كلا نموذجي GPT للاتفاق على محتوى متحيز. مقارنةً بـ GPT-3.5، فإن GPT-4 أكثر عرضة للتأثر بأنظمة الإشارات المضللة المستهدفة.
حول قضية تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين كبير في دقة استخراج المعلومات. بالإضافة إلى ذلك، قد يكشف النموذج أيضًا عن المعلومات الخاصة المدخلة في تاريخ المحادثة.
بشكل عام، توفر هذه الدراسة تقييماً شاملاً لموثوقية نماذج GPT، كاشفة عن بعض الفجوات المهمة في الموثوقية. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على مواصلة التعمق في هذا المجال، والعمل معاً على إنشاء نماذج أقوى وأكثر موثوقية.