2024 年 2024 巻 AGI-028 号 p. 06-
近年,言語モデル(LM)が広く利用され,社会的バイアスやステレオタイプがより深刻な問題と見做されている.本研究では,人手作成のデバイアスデータを使用せずにLMのバイアスを軽減するためにBias Vectorを提案する.本手法は,(1)事前学習済みLMをバイアス方向に継続学習し,(2)バイアスLMから事前学習済みLMの重みを減算しBias Vectorを構築し,(3)Bias Vectorを事前学習済みLMの重みから減算しデバイアスする.本研究ではSEATにより3種類のLMにおいて本手法を評価,平均0.177ポイントの改善を確認した.また,GLUEスコアによりLMの表現力が劣化しないと示した.