SDGsの分類

研究テーマ: IT・IoT・AI・ロボティクス

学科の分類: 情報科学部情報メディア学科

多様な歌唱スタイルに対応した楽曲検索システム

情報科学部

情報メディア学科

音声・音楽情報処理研究室

鈴木基之教授

擬音語変換楽曲検索歌唱音声認識

データベース中から楽曲を検索する際，題目や歌手名，といったメタ情報ではなく，楽曲を直接歌唱することで簡単に検索できるシステムを開発しています。ハミング歌唱や歌詞による歌唱に加え，擬音語による歌唱にも対応し，またメロディの誤りや歌詞の誤りといった現象に対しても高精度に検索するための各種技術を開発しています。

はじめに

一般に楽曲を検索する際には，その題名や歌手名，といったいわゆる「メタ情報」を元に検索します。しかし，「あの曲何だったっけ？」といった時にはこうしたメタ情報がわからないため，検索することができません。

こうした場合でも簡単に楽曲を検索できるようにするため，楽曲自体を歌唱し，その音声を元に楽曲を検索するシステムを開発しています。この時，

多様な歌唱方法（歌詞による歌唱，ハミングによる歌唱，擬音語（じゃじゃーん，のような）による歌唱）に対応
ユーザの記憶違いによる歌詞間違い（1番と2番の歌詞の混同や，類似した単語への置換等）にも頑健に検索

といった機能を持たせることで，高精度で使いやすいシステムの開発を目指しています。

システムの概要

右図に開発している楽曲検索システムの概要を示します。まず歌声が入力されると，そこからメロディと歌詞をそれぞれ自動で抽出し，それらと歌詞データベース，メロディデータベースを照合することで，最終的な検索結果を得ます。また，歌詞ではなく擬音語で歌唱された場合は，その擬音語を歌詞のかわりとして用い，擬音語データベースと照合することで検索を行います。

こうしたシステムを構築するために，

メロディ情報や歌詞情報をいかに高精度に自動抽出するか
ユーザの記憶違い等による歌詞誤りに，どのように対処するか
メロディ情報や歌詞情報の抽出誤りにどのように対処するか
擬音語データベースをどのように自動構築するか

といった点について，開発していく必要があります。

高精度歌詞認識

歌唱音声から歌詞を認識するには，いわゆる音声認識システムが必要です。音声認識システムは近年高精度になりましたが，歌唱音声特有の現象があり，そのままでは高い認識率を出すことができません。

歌唱音声に特有の現象としては，以下のような物が挙げられます。

発声方法が通常音声と異なる
音符にあわせて歌唱するため，通常表れないような長い母音が表れる
休符や息継ぎのため，単語の途中でも無音区間が表れることがある

これらのうち，発声方法の違いについては，歌唱音声データを用いて音響モデルを再学習することで対処することが一般的です。そこで残りのふたつの特性を考慮した認識方法を開発することで，高精度な歌詞認識を実現しました。

歌唱は音符にあわせて行われます。基本的にひとつの音符にひとつの「ひらがな」が対応しますので，歌唱音声から音符の区切り時刻が推定できれば，その間はどれだけ長くてもひとつの「ひらがな」に制限することができ，結果的に異常に長い母音に対しても正しくひとつの母音を割り当てることができます。

また，休符や息継ぎは音符と音符の間で行われますから，音符の区切り時刻近辺では，単語の途中であっても無音区間を許す，として認識を行う事で，正しく無音区間を無音として認識させることができます。

このように，歌唱音声から音符の区切り時刻を推定し，その情報を利用することで高精度な歌詞認識を実現しました。

提案した方法の有効性を確認するため，歌唱音声データを用いて歌詞の認識実験を行いました。

27名の男女がそれぞれ童謡を歌唱したデータを用いて実験したところ，認識率は右表のようになりました。発声方法の違いだけ対処した従来の方法での認識率が85.7%だったのに比べ，提案した方法は93.2%と，非常に高い性能を示すことがわかりました。特に無音区間に対応した事の効果が大きいことがわかりました。

擬音語データベースの自動構築

ユーザが歌唱音声で楽曲を検索しようとする時，歌詞がわからなかったり曖昧な時は，「たらら」といった擬音語を用いて歌唱します。この時，ユーザはどのような擬音語を選択して用いるのか，そこには，元の楽曲の音色の情報が含まれていると考えられます。

例えば「ポン」と表現された音より，「ピン」と表現された音の方が，音の高さが高いと推測できます。同様に「トン」より「ドン」の方が音が低く，音量も大きそうです。

そこで，楽曲を「それらしい」擬音語で表現しておけば，ユーザが用いた擬音語を歌詞のかわりに検索に用いられるのではないか，と考え，擬音語データベースを事前に作成しておくことにしました。

擬音語データベースを自動で作成するためには，楽曲をそれらしい擬音語系列に自動で変換する必要があります。これは，「音が入力されると，それに対応したテキストが出力される」と考えれば，音声認識と全く同じ枠組みになります。そこで音声認識システムのアルゴリズムを流用し，楽曲を入力して，「それらしい」擬音語を出力するシステムを開発しました。

この時，「ドン」や「じゃん」といった擬音語は，ひとつの音符と対応している事が多い，という事から，高精度歌詞認識の時と同様，楽曲における音符の区切り時刻情報を用い，音符と擬音語の対応を明確にした上で変換をするようにアルゴリズムを構築しました。

実際にクラシック音楽を入力し，擬音語に自動変換してみました。変換結果のサンプルを右に掲載します。

時々変なところもありますが，思ったより「それらしい」擬音語に変換できたのではないかと思います。

まとめ

本楽曲検索システムの開発はまだ途中であり，それぞれのパーツをまだまだ高精度化していく必要があります。

現在は，ユーザの記憶違いによる歌詞の誤りや，歌詞認識システムの誤認識傾向を考慮した検索システムの開発をしています。具体的には，ある単語はどの単語と意味的にどれくらい近いか，発音としてどれくらい近いか，どれくらい誤認識しやすいか，といった指標をそれぞれ計算し，近い単語同士であれば置換されていてもその曲の歌詞とみなす，といった方法で対処しています。

こうした改良を積み重ね，多様な歌唱に対応した高精度楽曲検索システムを開発していきたいと思っております。

論文

「音符区切り情報を用いた高精度歌唱音声認識」(2020)鈴木基之『情報処理学会論文誌』61(4)p.798-806.

「Lyrics recognition from singing voice focused on correspondence between voice and notes」(2019)SuzukiMotoyuki『Proc. INTERSPEECH 2019』p.3238-3241.

「Development of Singing-by-Onomatopoeia corpus for Query-by-Singing Music Information Retrieval system」(2017)SuzukiMotoyuki『International Journal of Advanced Intelligence』9(1)p.63-75.

研究者INFO: 情報科学部情報メディア学科音声・音楽情報処理研究室鈴木基之教授

研究シーズ・教員に対しての問合せや相談事項はこちら

技術相談申込フォーム

SDGsの分類

テーマの分類

学部・学科の分類

キーワード

多様な歌唱スタイルに対応した楽曲検索システム

同じカテゴリーの研究シーズ

X線画像による非破壊検査に向けた微弱特徴の可視化

組合せデザインの深層学習への応用

オクシモロンの謎―意味の矛盾と伝達効果

光無線融合通信技術を用いた５ＧＭＩＭO信号中継伝送システム

既設照明によるかんたん屋内定位技術 CEPHEID(セファイド)

初等中等教育向けロボットプログラミング学習環境

植物画像を対象とした枝の構造復元

二次元画像1枚からの表情変化動画像のリアルタイム生成

創作者の表現を計算機に学習させる

手すりの上を移動する道案内ロボット

スケジュール変更を考慮した数理モデル

遺伝的アルゴリズムに基づく鉄道ダイヤの生成自動化

波動システムの研究開発

筋萎縮と関節拘縮を予防する足関節多自由度運動装置

オンライン授業への知見の集積

並列処理の初学者のための図形アニメーションに基づく並列化フレームワークの提案

リース機器の循環型物流における需要予測と在庫最適化

欠陥データを利用したソフトウェアプロジェクト比較手法に関する研究

自律的学習者育成のための英語教材の開発および研究

人同士のコミュニケーションを支援する

Facebook

Dribbble

Behance

Instagram

E-mail

SDGsの分類

テーマの分類

学部・学科の分類

キーワード

多様な歌唱スタイルに対応した楽曲検索システム

同じカテゴリーの研究シーズ

X線画像による非破壊検査に向けた微弱特徴の可視化

組合せデザインの深層学習への応用

オクシモロンの謎―意味の矛盾と伝達効果

光無線融合通信技術を用いた５Ｇ ＭＩＭO信号中継伝送システム

既設照明によるかんたん屋内定位技術 CEPHEID(セファイド)

初等中等教育向けロボットプログラミング学習環境

植物画像を対象とした枝の構造復元

二次元画像1枚からの表情変化動画像のリアルタイム生成

創作者の表現を計算機に学習させる

手すりの上を移動する道案内ロボット

スケジュール変更を考慮した数理モデル

遺伝的アルゴリズムに基づく鉄道ダイヤの生成自動化

波動システムの研究開発

筋萎縮と関節拘縮を予防する足関節多自由度運動装置

オンライン授業への知見の集積

並列処理の初学者のための図形アニメーションに基づく並列化フレームワークの提案

リース機器の循環型物流における需要予測と在庫最適化

欠陥データを利用したソフトウェアプロジェクト比較手法に関する研究

自律的学習者育成のための 英語教材の開発および研究

人同士のコミュニケーションを支援する

Facebook

Dribbble

Behance

Instagram

E-mail

光無線融合通信技術を用いた５ＧＭＩＭO信号中継伝送システム

自律的学習者育成のための英語教材の開発および研究