AIの性能を決定づけるデータセット

ソフトウェアにはさまざまなものがありますが、大規模言語モデルのソフトウェアとは、基本的には「AIのニューラルネットワークの構造を決めたもの」を意味します。ハードウェアとソフトウェアが揃い、あとはデータセットがあれば学習できます。

データセットとは、AIに学習させるためのデータのことです。人間が賢くなるためにはいい本をたくさん読まなければならないのと同じように、AIの賢さは学習するデータセットの質と量に大きく左右されます。

『教養としての生成AI』(著:清水亮/幻冬舎)

実はAIの性能を決定づけるのは、ソフトウェアというよりもむしろこのデータセットなのです。しかし、高品質かつ大量なデータセットを集めるというのは非常に大変な作業で、これも膨大な費用がかかります。

そしてウェイトというのは、ハードウェアとソフトウェアがデータセットを学習した結果得られた、ニューラルネットワークの「重み」のデータです。要は、ニューロン同士のつながりの強弱の情報を集めたものです。