LLMにおける個人特性に基づくステレオタイプの定量的分析手法の提案
書誌事項
- タイトル別名
-
- Towards Quantifying Individual-Attribute-Based Stereotypes in LLMs
- 公開日
- 2025-10-20
- 資源種別
- conference paper
- 公開者
- 情報処理学会
説明
LLM の出力が人々の行動や社会活動へ影響を与える場面が増加している.特に,年齢,性別,人種等の個人特性による影響として,そのステレオタイプを評価することは重要である. 本論文では,個人特性が質問文に含まれる明示的な評価として,その選択肢は「はい」か「いいえ」の二択となるが,その正解に関する解釈が分かれるような状況を想定する.既存研究では,線形な統計モデルを当てはめ,その回帰係数を平均化した結果も報告されているが,例えば,年齢による非線形な変化を見逃す可能性や,人種ごとの異なる方向への偏りを過小評価する可能性がある.そこで我々は,個人特性の変化による応答傾向の差や一致度合いを測るための評価手法を提案し,9 個の LLM を 70 種類の質問で評価した結果を報告する.最後に,LLM の信頼性評価として,各ステークホルダーが実施すべきことについて議論する.
As large language models (LLMs) increasingly influence human behavior and social activities, it becomes crucial to assess how individual attributes, such as age, gender, and race, affect their outputs. This paper focuses on quantifying stereotypes that arise when explicit evaluations involving individual attributes are embedded in input prompts. We focus on yes/no questions that explicitly include individual attributes, where no universally accepted correct answer exists, and interpretations may vary from person to person. While previous studies have employed linear statistical models and averaged regression coefficients, such approaches may overlook non-linear effects of age, and underestimate divergent biases across racial groups. To address these limitations, we propose an evaluation method that measures differences and consistencies in response patterns as individual attributes vary. We apply our methodology to evaluate nine LLMs across 70 distinct questions. Finally, we discuss the implications of our findings for trustworthiness evaluations and outline key responsibilities for relevant stakeholders.
収録刊行物
-
- コンピュータセキュリティシンポジウム2025論文集
-
コンピュータセキュリティシンポジウム2025論文集 60-67, 2025-10-20
情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050870696492184576
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB