2018年11月、動画から自動で漫画を生成する論文「Comixify」が発表された。動画の自動要約と画像のスタイル変換を組み合わせた研究だ。
上の画像を見てもらうと、実写画像から漫画に近い画像に変換できていることがわかる。本稿では、論文をもとに実際に動画を漫画へ変換し、どのような仕組みで変換が行われているのかを簡単に解説する。
実際に動画を漫画に変換してみた
Comixifyの研究者らが公開したサイトがComixify.aiだ。
Comixifyで提案された手法を用いて、オンライン上で任意の動画を変換できる。難しい作業はなく、手持ちの動画をアップロードするか、YouTubeのURLをコピー&ペーストするだけだ。
実際に次の動画をComixify.aiのサイトで変換してみた。
Pexels.comより
動画をアップロードした後に、待つこと数秒。次のような画像が表示された。
動画からフレームを選び取り、漫画風のスタイルに変換できている。
仕組みは「動画の自動要約」「画像を漫画風に変換」の2段階
Comixifyの仕組みは、主に2段階の工程に分けて考えられる。
ひとつめは「キーフレーム抽出」という、何百ものフレームから構成されている元動画から、重要なフレームを10枚ほど抽出する工程。
もうひとつは「スタイル変換」と呼ばれる抽出されたフレームを漫画風に変換する工程だ。
元動画から重要なフレームを抽出
キーフレーム抽出の工程では、以下の流れでキーフレームの抽出を行う。
DSN(Deep Sumarization Network)という教師なしの強化学習を使用している。フレームごとに重要度を算出するネットワークである。
詳細な説明は省くが、多様性(類似したフレームがある場合重要度が下がる)、代表性(選ばれたフレームが動画をよく表現するフレームとなっている場合は重要度が上がる)のふたつに焦点をあてて学習している。
KTS(Kernel Temporal Segmentation)という手法を使用している。動画の映像の移り変わりを検知することで、その移り変わりのフレームを境目としてシーンごとのかたまりに動画を分割できる。
シーンの中で最大の重要度となるフレームを抜き出している。
画像の審美評価(Aesthetic estimation)を行う。ここでは、
- 人気度推定(Popularity estimation)
- 画像品質推定(Image quality estimation)
のふたつの手法を使用している。
人気度推定では、Facebookのいいね数をもとに作成された画像のデータセットを使用している。
具体的には、「Facebookのフォロワーに対してのいいね数が多いほどその画像は人気である」という仮定をもとにデータセットを作成。それを学習したネットワークにより、画像の人気度がどれだけ高いかを評価できる。
画像品質推定では、Googleが提案するNIMA(Neural Image Assesment)と呼ばれる手法が用いられている。画像の美しさを自動で評価でき、人が行う判断と大きなズレがなく評価できると言われている。
Comixifyではこれらの手法を用いて、何百とあるフレームから限られた複数枚を抽出し、要約を作成する。
動画から抽出した画像を漫画風に変換
2段階目のスタイル変換では、GANを使用して元画像から漫画風の画像に変換している。
GANは、Generator(生成者)とDiscriminator(判定者)の2つを競わせながら学習を行う手法。Generatorが訓練データに似た画像を生成し、Discriminatorはそれが訓練データか、もしくはGeneratorが生成した偽物の画像なのかを判定する。GeneratorとDiscriminatorの学習を交互に繰り返すことで、Generatorは訓練データに近い画像を生成できるようになる。
Comixifyの論文で述べられているGANは、CartoonGANとComixGANのふたつ。
CartoonGANは2018年に公開された論文だ。宮崎駿や新海誠“風”の画像を生成する実験が行われた。
左が変換前の画像、真ん中が新海誠風に変換した画像、右が宮崎駿風に変換した画像(画像は論文から引用)
また、ComixGANはComixifyの研究グループが新たに提案した画像のスタイル変換手法。CartoonGANでは線や物体の輪郭がぼやけてしまうという欠点があるが、それを解決した。
左の列から、元画像(変換前)、ComixGAN(宮崎駿風)、ComixGAN(新海誠風)、CartoonGANでの結果(画像は論文から引用)
CartoonGANではComixGANと比べ、輪郭や線がはっきりと描写されているのが特徴だ。
Comixifyの幅広い応用先
Comixifyは遊び心のある研究だが、使われている技術を見てみると応用先が広い。動画の自動要約などはさまざまな業界で適用できる可能性がある。
テレビ業界やスポーツ放映企業では、動画要約に大きな費用、工数がかけられており、その負担軽減が求められている。ほかにも、結婚式場のサービスとして、式の最中に撮影した動画をその場で編集し、エンドロールで再生するなどの業務が発生しているとも聞く。このようなリアルタイム性が求められる場面では、AIは強い力を発揮するだろう。
動画要約、スタイル変換のどちらも現在盛り上がっている分野だ。さらなる技術革新に期待したい。