橋本慧悟の発言 (内閣委員会)

⚠️ コピーしたテキストを転載する際は、転載元URL(kokkai-data.com)および原典URL(kokkai.ndl.go.jp)を必ず残してください。発言内容の改変・出典削除は禁止です。 詳細は利用規約をご確認ください。

○橋本(慧)委員 まさに、御答弁をいただきまして、日本語のデータが少ないということだと思います。
 生成AIでは、大量のデータを学習させてモデルの規模を巨大化するほどその予測精度も向上することから、大規模言語モデル、ラージランゲージモデル、LLMと呼ばれたり、この開発が、モデルの大規模化を目指して熾烈な競争が繰り広げられていると認識をしております。
 この言語モデルというのは、人間が話したり書いたりする言葉や文章を基に単語の出現確率をモデル化する技術だと認識しています。
 具体的には、大量のテキストデータから学習をして、ある単語の後に続く単語がどのくらいの確率で出現するのかを予測するものです。例えば、私の職業は、というような文章の後に続く単語として、教師ですとかエンジニアですとか保育士ですというような、それは確率として高いなという判断が働き、ここにある机とか黒色とかスーツとかという言葉は可能性としては低いと判断していく、それで言語をモデル化していくものだと思います。こうして言語モデルは、単語の出現確率を統計的に分析することで人間の言語を理解して予測ができるようになると思います。
 それで、生成AIの基盤となる大規模言語モデルの開発では、やはりマイクロソフトやグーグルなど米国のビッグテック企業が先行している現状にありまして、我が国においても国産の大規模言語モデルの開発に向けた取組は進められていると思いますが、生成AIを日本語で問題なく使えるようにするためには、高品質の日本語のウェブテキストというのを学習データとしてしっかりと収集をして、この構築に利活用できるようにしておく必要があると思います。
 学習データに用いられる日本語のウェブテキストとしては、具体的にどのようなものを想定されていますでしょうか。

発言情報

speech_id: 121704889X01320250411_029

発言者: 橋本慧悟

speaker_id: 28685

日付: 2025-04-11

院: 衆議院

会議名: 内閣委員会