懐かしい写真から愛犬が蘇る！ヤバい「VEO2」

懐かしい写真から愛犬が蘇るお話です。

最近、GoogleのAIで動画生成をする「VEO3」が話題になっていますが、VEO3は有料サービスで月額3万円ほどするので気軽に使うのは難しいです。しかしVEO3の前のバージョン「VEO2」なら条件付きで無料でお試し出来ます。

VEO3は、VEO2の動画生成機能に、喋らしたり効果音や環境音を自動的に付加する機能が備わっています。つまり一発で完成された動画を生成できるのですが、残念ながら現状のVEO3は日本語に完全対応が出来ていないので、日本向けのコンテンツを作るのは難しいかもしれません。なので画像生成能力だけならVEO2でも十分テストはできます。

一応業界人なので「これは試しておかねば！」ということで「Google AI Studio」から試してみました。

Google AI Studio
https://aistudio.google.com/

結果、ヤバいほどの生成能力でビックリしました。
まずはこちらの動画をご覧ください。

この動画は先代の愛犬カイ君とチョビの写真データをアップロードして、VEO2で適当に動画を生成させたものです。もちろん過去のビデオではなく本当に写真１枚から生成したものです。まるで先代のカイ君が蘇ったような感じでほっこりしました。

男前のカイ君とゆる顔のチョビをそれぞれ別々に動画生成したもので、８秒のハイビジョン動画を４０秒ぐらいで生成できました。Google AI Studioではこのサイズが上限になります。また無料だと１日に生成できる回数に制限があるのでご注意ください。

とにかく動きが自然で二次元の写真だけでは足りない部分もちゃんと補完されています。まず被写体と背景を完璧に区別出来ているのが凄いです。横を向く動作では骨格や筋肉の動きまで意識したかのような自然な動きですし、光源に対しての明暗や色合いも自然で、まるでビデオ撮影したかのような映像になっています。

通常、３Ｄ動画を作成するためには、まず対象物をソリッドかサーフェースでモデリングして表面の形状を表現するバンプマッピングやテクスチャーを用意して、そのモデルに骨格を埋め込み、ストップモーション的にモデルを動かすデータを作成して、背景データと一緒にレンダリングする、といったような膨大な手間がかかります。

しかしVEO2の生成はそんな従来的な手順は全てすっ飛ばして、いきなり写真から被写体を認識して動画を生成しているように見えます。おそらく膨大な動画を学習することで、パターン認識的に２次元画像を力技でモーフィングして立体的に見える動画を生成しているんじゃないかな？と思いす。詳しい仕組みはよくわかりませんが、結果は毛のフサフサ加減まで完璧です。

もう一つ、娘がチョビの写真をモディファイした可愛い画像を送ってきたので、その画像からダンスしているチョビの動画を生成してみました。