動画から漫画を自動で生成する「Comixify」を使ってみた

このエントリーをはてなブックマークに追加

2018年11月、動画から自動で漫画を生成する論文「Comixify」が発表された。動画の自動要約画像のスタイル変換を組み合わせた研究だ。

上の画像を見てもらうと、実写画像から漫画に近い画像に変換できていることがわかる。本稿では、論文をもとに実際に動画を漫画へ変換し、どのような仕組みで変換が行われているのかを簡単に解説する。

実際に動画を漫画に変換してみた

Comixifyの研究者らが公開したサイトがComixify.aiだ。

Comixifyで提案された手法を用いて、オンライン上で任意の動画を変換できる。難しい作業はなく、手持ちの動画をアップロードするか、YouTubeのURLをコピー&ペーストするだけだ。

実際に次の動画をComixify.aiのサイトで変換してみた。

Pexels.comより

動画をアップロードした後に、待つこと数秒。次のような画像が表示された。

動画からフレームを選び取り、漫画風のスタイルに変換できている。

仕組みは「動画の自動要約」「画像を漫画風に変換」の2段階

Comixifyの仕組みは、主に2段階の工程に分けて考えられる。

ひとつめは「キーフレーム抽出」という、何百ものフレームから構成されている元動画から、重要なフレームを10枚ほど抽出する工程。

もうひとつは「スタイル変換」と呼ばれる抽出されたフレームを漫画風に変換する工程だ。

元動画から重要なフレームを抽出

キーフレーム抽出の工程では、以下の流れでキーフレームの抽出を行う。

編集部にて作成

①動画のフレームごとに重要度を計算
DSN(Deep Sumarization Network)という教師なしの強化学習を使用している。フレームごとに重要度を算出するネットワークである。

詳細な説明は省くが、多様性(類似したフレームがある場合重要度が下がる)、代表性(選ばれたフレームが動画をよく表現するフレームとなっている場合は重要度が上がる)のふたつに焦点をあてて学習している。

②動画をシーンに分割
KTS(Kernel Temporal Segmentation)という手法を使用している。動画の映像の移り変わりを検知することで、その移り変わりのフレームを境目としてシーンごとのかたまりに動画を分割できる。
③シーンごとに重要度の高いフレームを抽出
シーンの中で最大の重要度となるフレームを抜き出している。
④の画像の美しさについての評価
画像の審美評価(Aesthetic estimation)を行う。ここでは、

  • 人気度推定(Popularity estimation)
  • 画像品質推定(Image quality estimation)

のふたつの手法を使用している。

人気度推定では、Facebookのいいね数をもとに作成された画像のデータセットを使用している。

具体的には、「Facebookのフォロワーに対してのいいね数が多いほどその画像は人気である」という仮定をもとにデータセットを作成。それを学習したネットワークにより、画像の人気度がどれだけ高いかを評価できる。

画像品質推定では、Googleが提案するNIMA(Neural Image Assesment)と呼ばれる手法が用いられている。画像の美しさを自動で評価でき、人が行う判断と大きなズレがなく評価できると言われている。

Comixifyではこれらの手法を用いて、何百とあるフレームから限られた複数枚を抽出し、要約を作成する。

動画から抽出した画像を漫画風に変換

2段階目のスタイル変換では、GANを使用して元画像から漫画風の画像に変換している。

GAN(Generative Adversarial Network)とは
GANは、Generator(生成者)とDiscriminator(判定者)の2つを競わせながら学習を行う手法。Generatorが訓練データに似た画像を生成し、Discriminatorはそれが訓練データか、もしくはGeneratorが生成した偽物の画像なのかを判定する。GeneratorとDiscriminatorの学習を交互に繰り返すことで、Generatorは訓練データに近い画像を生成できるようになる。

Comixifyの論文で述べられているGANは、CartoonGANComixGANのふたつ。

CartoonGANは2018年に公開された論文だ。宮崎駿や新海誠“風”の画像を生成する実験が行われた。

左が変換前の画像、真ん中が新海誠風に変換した画像、右が宮崎駿風に変換した画像(画像は論文から引用)

また、ComixGANはComixifyの研究グループが新たに提案した画像のスタイル変換手法。CartoonGANでは線や物体の輪郭がぼやけてしまうという欠点があるが、それを解決した。

左の列から、元画像(変換前)、ComixGAN(宮崎駿風)、ComixGAN(新海誠風)、CartoonGANでの結果(画像は論文から引用)

CartoonGANではComixGANと比べ、輪郭や線がはっきりと描写されているのが特徴だ。

Comixifyの幅広い応用先

Comixifyは遊び心のある研究だが、使われている技術を見てみると応用先が広い。動画の自動要約などはさまざまな業界で適用できる可能性がある。

テレビ業界やスポーツ放映企業では、動画要約に大きな費用、工数がかけられており、その負担軽減が求められている。ほかにも、結婚式場のサービスとして、式の最中に撮影した動画をその場で編集し、エンドロールで再生するなどの業務が発生しているとも聞く。このようなリアルタイム性が求められる場面では、AIは強い力を発揮するだろう。

動画要約、スタイル変換のどちらも現在盛り上がっている分野だ。さらなる技術革新に期待したい。