2024 年 2023 巻 SWO-062 号 p. 08-
文中の固有表現を知識ベース内のエンティティと対応付けるタスクであるエンティティリンキング(EL: Entity Linking)は,知識処理や自然言語処理の基盤技術として注目されている.既存のEL手法の多くは英語を対象としている.日本語文を翻訳して英語を対象としたEL手法に与えた場合,日本語特有の固有表現抽出に失敗したり,固有表現抽出と語義曖昧性解消の性能が低下することがある.本研究では,代表的な大規模言語モデルであるGPT,Llama 2,Swallowに基づく日本語と英語を対象としたEL手法を提案する.提案手法は大規模言語モデルにプロンプトを与えて,EL対象文からエンティティ名の抽出とそれに対応するWikipedia URLを生成する.次に,WikidataのSPARQLエンドポイントに問い合わせをして,Wikipedia URLからWikidata IDを取得し,エンティティ名とそのWikidata IDを出力する.評価実験では,LC-QuAD2.0,SimpleQuestions,WebQSPの日本語と英語のデータセットを対象に,提案手法と先行研究のEL手法を比較評価した結果を示す.