大規模言語モデルの歴史
大規模言語モデルの歴史は、2010年代初めに遡ります。
当時、研究者たちは言語モデルの能力向上を目指し、ディープラーニング技術を用いたニューラルネットワークモデルを開発しました。この技術の登場により、大量のデータを用いたトレーニングが可能となり、生成系AIの進化を促したのです。
最初の成功は、2012年に開発されたGoogleのニューラルネットワーク言語モデルによってもたらされました。ニューラルネットワーク言語モデルは、巨大なトレーニングコーパス(単語や文を集めた一種の辞書のようなもの)を用いた単語予測タスクを学習し、高い性能を達成しました。それ以来、大規模言語モデルの分野は急速に発展し、word2vecやGloVeなどさまざまな手法が開発されました。
なかでも最も注目されているのが、冒頭から取り上げているGPTシリーズです。
GPTとは、OpenAIによって開発された一連の生成系AIモデルで、「生成的事前学習済みトランスフォーマー(Generative Pre-trained Transformer)」の頭文字をとったものです。
「トランスフォーマー」と言ってもロボットではありません。日本語に無理に意訳すれば「変換器」でしょうか。GPTは簡単に言うと、「ある文字列が与えられたら、続く文字列を生成する変換器」です。こう表現すると、ずいぶんわかりやすいのではないでしょうか。
GPTは、Transformer(トランスフォーマー)を基盤としたニューラルネットワークを使用し、自然言語処理に特化しています。
自然言語処理とは、人間が日常的に使っている言語の特徴、構文、文法、意味、機能をコンピュータが解釈し、言語に関するさまざまな問題に対して解決策を提供する技術です。生成系AIの中でも自然言語処理は最も重要な応用分野の一つで、文章の生成や要約、翻訳、感情分析、会話システム、音声認識、テキスト分類、自然言語推論、情報抽出など、さまざまなタスクに応用されます。