二次元画像1枚からの表情変化動画像のリアルタイム生成
深層生成モデルを用いて,1枚の二次元顔画像から表情変化動画像の自動生成を行った.現状,動画像のサイズは500×500pixel程度だが、超解像度、ネットワーク規模削減手法を組み合わせることでリアルタイムの生成を実現した.本研究はビデオ会議システムにおけるアバターの自動生成を想定して行っており、今後は応用システムの開発に取り組む予定である.
会話時の声の音響的特徴(ピッチ、パワー、周波数特性など)及びしぐさの動的特徴の時間変化度合いを観察することで、会話が楽しく進行しているかそれともギクシャクしているかなどの会話の雰囲気を推定できることがわかってきました。この技術を用いた会話支援システムを構築中ですが、他にも、高齢者の理解度衰え推定、場の雰囲気盛り上げシステム、学習支援システムなど、幅広いアプリケーション展開を図っています。
論文
「Identification of target speech utterances from real public conversation」(2020)『Digital Human Modeling and Applications in Health, Safety, Ergonomics and Risk Management. Human Communication, Organization and Work』12199p.52-63 .
「Estimating Age-Dependent Degradation using Nonverbal Feature Analysis of Daily Conversation」(2019)『DHM 2019, Part II, LNCS』12199p.222–231.
「F0 Feature Analysis of Communication Between Elderly Individuals for Health Assessment」(2018)『DHM 2017, Part II, LNCS』 10287p. 195–205.
研究シーズ・教員に対しての問合せや相談事項はこちら
技術相談申込フォーム