拡散モデルによる顔画像の再構成と動画圧縮への応用

井内 航, 梅田 悠哉, 原田 和亮, 柚木 隼人, 向井 皇喜, 吉田 舜, 山崎 俊彦

doi:10.11517/pjsai.jsai2023.0_3d5gs203

書誌事項

タイトル別名

Face Reenactment with Diffusion Model and Its Application to Video Compression

抄録

<p>情報技術の発展により、高容量の画像、動画の利用が一般的になった。ただしHDDなど記憶デバイスの容量や通信帯域は有限であり、圧縮の必要性はこれまでも議論されてきた。ルールベースの圧縮に加え近年ではGANなど深層学習ベースの圧縮手法も提案されている。既存のFaR-GANによれば、ある人物の顔画像と表情を表す68点の座標データからその表情を持つ顔画像が再構成でき、高い圧縮率を実現できる。しかし、このような既存手法では再構成の精度、動画にした際のフレーム間の滑らかさに課題がある。本研究では拡散モデルを再帰的に用いて前のフレームからの再構成を行うことで、拡散モデルベースの顔画像の再構成における人物特定と表情生成のトレードオフを抑えつつ、フレーム間を滑らかに表現する手法を提案する。</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2023 (0), 3D5GS203-3D5GS203, 2023

一般社団法人人工知能学会

キーワード

詳細情報詳細情報について

CRID: 1390859758174690944

DOI: 10.11517/pjsai.jsai2023.0_3d5gs203

ISSN: 27587347

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用不可

拡散モデルによる顔画像の再構成と動画圧縮への応用

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

拡散モデルによる顔画像の再構成と動画圧縮への応用

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について