أجرت دراسة مشتركة بين جامعة إلينوي في إربانا-شامبين وجامعة ستانفورد وجامعة كاليفورنيا في بيركلي ومركز أمان الذكاء الاصطناعي ومعهد أبحاث مايكروسوفت، تقييمًا شاملاً لثقة نماذج المولد المدرب مسبقًا (GPT). أصدرت فريق البحث منصة تقييم شاملة، وقدموا تفاصيل اكتشافاتهم في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لثقة نماذج GPT".
كشفت الدراسات عن بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها سابقًا. على سبيل المثال، تميل نماذج GPT إلى أن تُضلل بسهولة، مما يؤدي إلى إنتاج مخرجات سامة ومتحيزة، وقد تكشف عن بيانات التدريب ومعلومات الخصوصية في تاريخ المحادثة. من المثير للاهتمام، أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عندما يواجه مطالبات خبيثة تهدف إلى تجاوز تدابير الأمان. قد يكون ذلك بسبب أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية زوايا موثوقية، بما في ذلك المتانة ضد الهجمات، السمية والتحيز، تسرب الخصوصية وغيرها. قاموا بإنشاء مجموعة متنوعة من سيناريوهات التقييم لاختبار أداء النموذج في ظل ظروف مختلفة.
فيما يتعلق بالعروض التقديمية العدائية، أظهرت الأبحاث أن GPT-3.5 و GPT-4 تتمتعان بمقاومة معينة للأمثلة المضادة للحقائق، ولكن في بعض الحالات قد يتم تضليلها. بشأن السمية والتحيز، فإن النموذجين يظهران تحيزًا أقل تجاه معظم مواضيع القوالب النمطية تحت الإرشادات الإيجابية، ولكن تحت الإرشادات المضللة، قد ينتجان محتوى متحيز، خاصة GPT-4.
فيما يتعلق بالخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين دقة استخراج المعلومات بشكل كبير. بشكل عام، يظهر GPT-4 أداءً أفضل في حماية المعلومات الشخصية، لكن النموذجين يظهران متانة نسبية في حماية أنواع معينة من المعلومات الحساسة.
أكد فريق البحث أن هذا العمل يهدف إلى تشجيع المزيد من الباحثين على المشاركة، لمنع الاستخدام الضار المحتمل. يأملون أن يسهم هذا المعيار في تعزيز التعاون، ودفع تطوير نماذج أكثر قوة وموثوقية. ولتحقيق ذلك، تم تصميم أكواد التقييم التي تمتاز بقابلية التوسع العالية وسهولة الاستخدام، حيث يمكن من خلال أمر واحد إجراء تقييم كامل للنماذج الجديدة.
من المهم أن نلاحظ أن فريق البحث تعاون مع الأقسام المعنية بالمنتجات لتأكيد أن هذه الاكتشافات لن تؤثر على الخدمات المقدمة للعملاء في الوقت الحالي. ويعود الفضل في ذلك جزئياً إلى مجموعة من التدابير التخفيفية التي تم تنفيذها. كما تم مشاركة نتائج البحث مع مطوري النماذج من أجل تحسينها بشكل أكبر.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقييم موثوقية نماذج اللغة الكبيرة: الكشف عن ثغرات الأمان ومخاطر الخصوصية في GPT-4
دراسة شاملة لتقييم موثوقية نماذج اللغة الكبيرة
أجرت دراسة مشتركة بين جامعة إلينوي في إربانا-شامبين وجامعة ستانفورد وجامعة كاليفورنيا في بيركلي ومركز أمان الذكاء الاصطناعي ومعهد أبحاث مايكروسوفت، تقييمًا شاملاً لثقة نماذج المولد المدرب مسبقًا (GPT). أصدرت فريق البحث منصة تقييم شاملة، وقدموا تفاصيل اكتشافاتهم في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لثقة نماذج GPT".
كشفت الدراسات عن بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها سابقًا. على سبيل المثال، تميل نماذج GPT إلى أن تُضلل بسهولة، مما يؤدي إلى إنتاج مخرجات سامة ومتحيزة، وقد تكشف عن بيانات التدريب ومعلومات الخصوصية في تاريخ المحادثة. من المثير للاهتمام، أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عندما يواجه مطالبات خبيثة تهدف إلى تجاوز تدابير الأمان. قد يكون ذلك بسبب أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية زوايا موثوقية، بما في ذلك المتانة ضد الهجمات، السمية والتحيز، تسرب الخصوصية وغيرها. قاموا بإنشاء مجموعة متنوعة من سيناريوهات التقييم لاختبار أداء النموذج في ظل ظروف مختلفة.
فيما يتعلق بالعروض التقديمية العدائية، أظهرت الأبحاث أن GPT-3.5 و GPT-4 تتمتعان بمقاومة معينة للأمثلة المضادة للحقائق، ولكن في بعض الحالات قد يتم تضليلها. بشأن السمية والتحيز، فإن النموذجين يظهران تحيزًا أقل تجاه معظم مواضيع القوالب النمطية تحت الإرشادات الإيجابية، ولكن تحت الإرشادات المضللة، قد ينتجان محتوى متحيز، خاصة GPT-4.
فيما يتعلق بالخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين دقة استخراج المعلومات بشكل كبير. بشكل عام، يظهر GPT-4 أداءً أفضل في حماية المعلومات الشخصية، لكن النموذجين يظهران متانة نسبية في حماية أنواع معينة من المعلومات الحساسة.
أكد فريق البحث أن هذا العمل يهدف إلى تشجيع المزيد من الباحثين على المشاركة، لمنع الاستخدام الضار المحتمل. يأملون أن يسهم هذا المعيار في تعزيز التعاون، ودفع تطوير نماذج أكثر قوة وموثوقية. ولتحقيق ذلك، تم تصميم أكواد التقييم التي تمتاز بقابلية التوسع العالية وسهولة الاستخدام، حيث يمكن من خلال أمر واحد إجراء تقييم كامل للنماذج الجديدة.
من المهم أن نلاحظ أن فريق البحث تعاون مع الأقسام المعنية بالمنتجات لتأكيد أن هذه الاكتشافات لن تؤثر على الخدمات المقدمة للعملاء في الوقت الحالي. ويعود الفضل في ذلك جزئياً إلى مجموعة من التدابير التخفيفية التي تم تنفيذها. كما تم مشاركة نتائج البحث مع مطوري النماذج من أجل تحسينها بشكل أكبر.