研究成果デモンストレーション

方位クラスタリングと音質復元型教師あり非負値行列因子分解を組み合わせたハイブリッドステレオ音源分離

今日の音楽はそのほとんどがステレオ形式(LとRの2チャネル信号)で提供されています.ステレオ音楽では通常,ボーカルや各楽器音に空間的な広がりを持たせるため,LチャネルとRチャネルの間で音量・音色・時間的違いが与えられており,そのような処理を「ステレオエフェクト」と呼ばれます.特に音量については,各音源の到来方向(方位)の違いを模擬するためにチャネル間の違いが顕著に与えられます.

このようなチャネル間の音量の違い(音量比)を用いると,比較的簡単に左側の音源,中央の音源,右側の音源等のように到来方位毎の音源を分離することができます.この技術は「方位クラスタリング」と呼ばれ,単純に時間周波数領域での音量比を特徴量とした1次元クラスタリングで実現できます.

方位クラスタリングでは,音量比を用いて時間周波数行列の各要素を左,中央,右の3クラスタのいずれかに分類する2値(0か1,バイナリ)のマスク行列が推定されます.これは単なるクラスタリング問題なので教師情報を必要とせず,ステレオの音楽信号ならば必ず適用できます.しかしながら,2値のマスク行列で強引に分離された各方位の音源は音質が著しく劣化してしまうほか,そもそも同じ方向にある複数の音源は原理的に分離できないという問題もあります.

方位クラスタリングのイメージ図

方位クラスタリングで音質が劣化してしまう現象は,2値マスクの推定精度が完全でないことに起因しています.正確な2値マスクが推定されないと,時間周波数行列の中で分離したい方位の音源成分の一部が欠損してしまい,人工的な歪みにつながります.

音質劣化と同一方位音源の残留という方位クラスタリングにおける2つの問題を同時に解決する手法として,我々はスペクトログラム修復機能付き教師ありNMF(supervised NMF: SNMF)を提案しています(教師ありNMFについてはコチラ).方位クラスタリングと修復機能付きSNMFを組み合わせることで,ステレオ音源から特定の音源を高品質で分離することができ,これを「ハイブリッドステレオ音源分離」と呼んでいます.

方位クラスタリングと教師ありNMFを組み合わせたハイブリッド音源分離の図

スペクトログラム修復機能付きSNMFは,欠損している時間周波数グリッドをNMFの最適化コスト関数から除外するようになっています.SNMFは事前学習で得られた音色パーツを持っているので,欠損部分はそのパーツから外挿・復元され,音質が回復する仕組みです.

下記のデモンストレーションでは,ステレオ音楽のうちの中央方位の音源を分離します.後段の修復機能付きSNMFでは,分離したい音源の2オクターブの音階信号を事前学習に用いています.方位クラスタリングの出力音は弱々しく,人工的な歪みを多く含んでいますが,修復機能付きSNMFを適用した後は音質が回復し,さらに中央の残留音源が抑圧されていることが分かります.

4音源からなるステレオ音楽の分離

ステレオ入力信号
(Piano, Guitar, Bass, Drums)

方位クラスタリングによる分離結果(第一段階)

左方位の音源
(Drums)
中央方位の音源
(Piano, Bass)
右方位の音源
(Guitar)

スペクトログラム修復機能付きSNMFの出力信号(第二段階)
(入力信号は中央方位の音源)

教師信号
(Pianoのサンプル音)
分離信号
(Piano)
教師信号
(Bassのサンプル音)
分離信号
(Bass)

参考文献

  • D. Kitamura, H. Saruwatari, K. Shikano, K. Kondo, and Y. Takahashi, "Regularized superresolution-based binaural signal separation with nonnegative matrix factorization," Proc. 3DSA, 2013
  • D. Kitamura, H. Saruwatari, Y. Iwao, K. Shikano, K. Kondo, and Y. Takahashi, "Superresolution-based stereo signal separation via supervised nonnegative matrix factorization," Proc. DSP, 2013.
  • D. Kitamura, H. Saruwatari, S. Nakamura, Y. Takahashi, K. Kondo, and H. Kameoka, "Online divergence switching for superresolution-based nonnegative matrix factorization," Proc. NCSP, pp. 485–488, 2014
  • D. Kitamura, H. Saruwatari, S. Nakamura, Y. Takahashi, K. Kondo, and H. Kameoka, "Divergence optimization in nonnegative matrix factorization with spectrogram restoration for multichannel signal separation," Proc. HSCMA, pp. 92–96, 2014.
  • D. Kitamura, H. Saruwatari, S. Nakamura, Y. Takahashi, K. Kondo, and H. Kameoka, "Hybrid multichannel signal separation using supervised nonnegative matrix factorization with spectrogram restoration," Proc. APSIPA ASC, 2014
  • D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo, and S. Nakamura, "Multichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restoration," IEEE/ACM Trans. Audio, Speech, and Lang. Process., vol. 23, no. 4, pp. 654–669, 2015.