大規模言語モデルの信頼性評価：GPT-4のセキュリティ脆弱性とプライバシーリスクの明らかに

2025-08-13 07:02:47

大規模言語モデルの信頼性評価に関する総合的研究

イリノイ大学シャンペーン校とスタンフォード大学、カリフォルニア大学バークレー校、人工知能安全センター、マイクロソフト研究所が共同で行った研究は、生成的事前訓練トランスフォーマーモデル（GPT）の信頼性を包括的に評価しました。研究チームは包括的な評価プラットフォームを発表し、最近の論文『DecodingTrust：GPTモデルの信頼性の包括的評価』で彼らの発見を詳しく紹介しました。

研究は、以前は公開されていなかった信頼性に関連するいくつかの脆弱性を明らかにしました。たとえば、GPTモデルは誤解を招きやすく、有害で偏見のある出力を生成し、訓練データや対話履歴に含まれるプライバシー情報を漏洩する可能性があります。興味深いことに、GPT-4は標準ベンチマークテストでは通常GPT-3.5よりも信頼性が高いですが、安全対策を回避することを目的とした悪意のあるプロンプトに直面すると、GPT-4は逆に攻撃を受けやすくなることがあります。これは、GPT-4が誤解を招く指示に対してより厳格に従うためかもしれません。

研究チームは、対抗的ロバスト性、有毒性と偏見、プライバシー漏洩などを含む8つの信頼性の観点からGPTモデルを包括的に評価しました。彼らは、異なる条件下でのモデルのパフォーマンスをテストするために、さまざまな評価シナリオを構築しました。

対抗的なデモに関する研究では、GPT-3.5とGPT-4は反事実の例に対して一定の抵抗力を持っていることがわかりましたが、特定の状況下では誤導される可能性もあります。毒性と偏見に関しては、両方のモデルは良性のプロンプトの下でほとんどのステレオタイプのテーマに対してバイアスが小さいですが、誤解を招くプロンプトの下では、特にGPT-4では偏見のあるコンテンツを生成する可能性があります。

プライバシーに関して、研究によれば、GPTモデルはトレーニングデータに含まれる敏感な情報、例えばメールアドレスを漏洩する可能性がある。特定のケースでは、追加の知識を利用することで情報抽出の精度を著しく向上させることができる。全体的に見ると、GPT-4は個人識別情報の保護においてより良いパフォーマンスを示しているが、両方のモデルは特定の種類の敏感情報の保護において比較的堅牢である。

研究チームは、この作業がより多くの研究者の参加を促し、潜在的な悪用を防ぐことを目的としていると強調しています。彼らはこのベンチマークが協力を促進し、より強力で信頼性のあるモデルの開発を推進することを望んでいます。そのために、彼らが設計した評価コードは高度にスケーラブルで使いやすく、新しいモデルに対して完全な評価を行うのに1つのコマンドだけで済むようになっています。

注目すべきは、研究チームが関連する製品部門と連携し、これらの発見が現在の顧客向けサービスに影響を与えないことを確認したことです。この部分は、実施された一連の緩和策に起因しています。研究結果は、さらなる改善のためにモデル開発者とも共有されています。

GPT-0.3%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

11 いいね