ChatGPTで起きたことが動画でも起きようとしている


数年前、GPT-3という技術は専門家向けの難しいツールであった。しかし、ChatGPTの登場により、誰でも普通に会話するだけで様々なことができるようになった。この「使いやすさ」が、ChatGPTが世界中に広まった大きな理由である。

また、AIは「段階的に考える力」も身につけた。最初は「ステップ1、ステップ2と順番に考えてください」と細かく指示する必要があったが、今では自分で考える手順を組み立てられるようになり、複雑な問題も解けるようになった。

実は今、同じような進化が動画を作るAIの世界でも起きている。

Googleが開発した「Veo 3」という動画AIについて、Google DeepMindの研究者たちが詳しく調べたところ、驚くべきことが分かった。このAIは、画像の中から特定の物を見つけ出したり、輪郭を検出したり、画像を編集したりといった様々な作業を、事前にやり方を教えられていなくてもできる。

さらに、動画の中で物がどう動くかを理解したり、原因と結果の関係を把握したり、迷路を解くような視覚的な問題にも取り組めるようになっている。

つまり、ChatGPTに話しかけるように、動画AIにも「この部分を強調して」「この物体を追跡して」と指示するだけで、様々な映像作業ができる未来が近づいている。文章のAIで起きた革命が、今度は映像の世界でも始まろうとしているのである。