生成AIの疑問が晴れた。 » 鶴巻事務所のウェッブサイト

ようやく、Deep Learningの仕組みとTransformerの働きが、
自分の中で一本の線につながった。

仕組みを整理するとこうだ。

Deep Learningで構築された学習済みモデルの内部には、数千億から数兆もの「パラメータ（重み）」が格納されている。

一方、ユーザーが入力する文章（プロンプト）は、まずトークンという意味の単位に分割され、それぞれが数値ベクトルへと変換される。

このベクトルとモデル内部のパラメータが行列演算で掛け合わされ、
文脈全体を踏まえて次にふさわしい単語の確率が計算されていく。

つまりAIは、トークンを1つずつ読み取りながら、
そのたびに膨大な行列計算を繰り返して、最も自然な「次の言葉」を予測しているのだ。

これまで理解しきれなかったのは、この膨大な計算を一瞬でこなしてしまうGPUの演算能力を、実感として掴めていなかったからだ。

Twitter	Youtube
GitHub	instagram

気づいたことを､お気軽に｡公開まで､やや時間がかかりまーす! コメントをキャンセル

気づいたことを､お気軽に｡
公開まで､やや時間がかかりまーす!

コメントをキャンセル