二次元画像1枚からの表情変化動画像のリアルタイム生成
深層生成モデルを用いて,1枚の二次元顔画像から表情変化動画像の自動生成を行った.現状,動画像のサイズは500×500pixel程度だが、超解像度、ネットワーク規模削減手法を組み合わせることでリアルタイムの生成を実現した.本研究はビデオ会議システムにおけるアバターの自動生成を想定して行っており、今後は応用システムの開発に取り組む予定である.
データベース中から楽曲を検索する際,題目や歌手名,といったメタ情報ではなく,楽曲を直接歌唱することで簡単に検索できるシステムを開発しています。 ハミング歌唱や歌詞による歌唱に加え,擬音語による歌唱にも対応し,またメロディの誤りや歌詞の誤りといった現象に対しても高精度に検索するための各種技術を開発しています。
論文
「音符区切り情報を用いた高精度歌唱音声認識」(2020)『情報処理学会論文誌』61(4)p.798-806.
「Lyrics recognition from singing voice focused on correspondence between voice and notes」(2019)『Proc. INTERSPEECH 2019』p.3238-3241.
「Development of Singing-by-Onomatopoeia corpus for Query-by-Singing Music Information Retrieval system」(2017)『International Journal of Advanced Intelligence』9(1)p.63-75.
研究シーズ・教員に対しての問合せや相談事項はこちら
技術相談申込フォーム