完全AIバーチャルYouTuberの構想
おはようございます。かわみです。
最近YouTuberに加え、バーチャルYouTuber(通称VTuber)も流行しています。
中には「AI」を名乗るVTuberもいますが、喋りが人間のそれですし本当にAIなのでしょうか。
そもそも本当にAIのバーチャルYouTuberは作ることができるのでしょうか。
というわけで、完全AIバーチャルYouTuberを構想してみます。
2DモデルのバーチャルYouTuber
現時点で2000人は存在するらしいVTuber。この中には頭から足まで全身動くVTuberがいれば、顔だけ動くVTuberもいます。
特に顔だけ動かしたい場合には、3Dモデルの必要ないLive2DとFaceRigの合わせ技が効果的であるようです。
FaceRigとLive2Dの詳しい説明は割愛しますが、FaceRigでWebカメラを使って実際の人間の顔を認識し、Live2Dのモデルをそれに沿って動かすことができます。
該当する例として、突然バーチャルYouTuber化した「さょちゃん」や、中の人であるすあだ氏のVTuber系コンテンツ(そんなにない)はLive2DとFaceRigの合わせ技で運営されているキャラクターがいます。
ちなみに「にじさんじ」の皆さんはLive2DとAnimojiの合わせ技だとか。
合成音声のバーチャルYouTuber
現時点で2000人は存在するらしいVTuber。この中には中の人が喋るVTuberもいれば、合成音声が喋るVTuberもいます。日によってそれが異なるVTuberもいます。
VOCALOIDのヒットがきっかけなのか、世の中には様々な音声合成ライブラリが存在します。市販のものもあればオープンソースのものまで。
近年であればAPIとして利用できるものもあります。
該当する例として、7年目の新人VTuberとして活躍する「ウェザーロイド Airi」や、「のらきゃっと」などがいます。
完全AIバーチャルYouTuberは可能か?
以上より、顔認識によって2Dモデルが動くVTuberと、合成音声を使用したVTuberが実在すると分かります。
完全自動化のためには、これら顔認識と音声合成に使う文字情報が自動生成できればうまくいきそうです。
図にしてみました。
「見た目」の生成には、実際のWebカメラを使用せず、顔画像(あるいは顔の動画)を自動で切り替えて表示し、それを仮想カメラとしてキャプチャしてFaceRigの入力ソースとすることで、自動化できるのではないでしょうか。
次に「声」の生成には、自動生成したテキストを音声合成ライブラリに用い、音声を出力することで自動化できるのではないでしょうか。
これで、顔の自動表示とテキスト自動生成ができれば、完全AIバーチャルYouTuberとして配信ができそうです。めでたしめでたし。
...と言いたいところですが、突如として登場した「自動生成システム」。
ここがAIとしての肝になるので、これを作る必要があります。どうやって作るのか。
この生成手法については自由度が高く様々な検討ができそうなので、またの機会にでも。
参考までに、2018年のIPA未踏事業で「AI実況プレイ動画生成」が採択されて取り組まれているので、これが応用できるかも。 www.ipa.go.jp