ようやく、Deep Learningの仕組みとTransformerの働きが、
自分の中で一本の線につながった。
仕組みを整理するとこうだ。
Deep Learningで構築された学習済みモデルの内部には、数千億から数兆もの「パラメータ(重み)」が格納されている。
一方、ユーザーが入力する文章(プロンプト)は、まずトークンという意味の単位に分割され、それぞれが数値ベクトルへと変換される。
このベクトルとモデル内部のパラメータが行列演算で掛け合わされ、
文脈全体を踏まえて次にふさわしい単語の確率が計算されていく。
つまりAIは、トークンを1つずつ読み取りながら、
そのたびに膨大な行列計算を繰り返して、最も自然な「次の言葉」を予測しているのだ。
これまで理解しきれなかったのは、この膨大な計算を一瞬でこなしてしまうGPUの演算能力を、実感として掴めていなかったからだ。