生成AIの疑問が晴れた。

ようやく、Deep Learningの仕組みとTransformerの働きが、
自分の中で一本の線につながった。

仕組みを整理するとこうだ。

Deep Learningで構築された学習済みモデルの内部には、数千億から数兆もの「パラメータ(重み)」が格納されている。

一方、ユーザーが入力する文章(プロンプト)は、まずトークンという意味の単位に分割され、それぞれが数値ベクトルへと変換される。

このベクトルとモデル内部のパラメータが行列演算で掛け合わされ、
文脈全体を踏まえて次にふさわしい単語の確率が計算されていく。

つまりAIは、トークンを1つずつ読み取りながら、
そのたびに膨大な行列計算を繰り返して、最も自然な「次の言葉」を予測しているのだ。

これまで理解しきれなかったのは、この膨大な計算を一瞬でこなしてしまうGPUの演算能力を、実感として掴めていなかったからだ。

気づいたことを、お気軽に。
公開まで、やや時間がかかりまーす!