今日の音楽はそのほとんどがステレオ形式(LとRの2チャネル信号)で提供されています.ステレオ音楽では通常,ボーカルや各楽器音に空間的な広がりを持たせるため,LチャネルとRチャネルの間で音量・音色・時間的違いが与えられており,そのような処理を「ステレオエフェクト」と呼ばれます.特に音量については,各音源の到来方向(方位)の違いを模擬するためにチャネル間の違いが顕著に与えられます.
このようなチャネル間の音量の違い(音量比)を用いると,比較的簡単に左側の音源,中央の音源,右側の音源等のように到来方位毎の音源を分離することができます.この技術は「方位クラスタリング」と呼ばれ,単純に時間周波数領域での音量比を特徴量とした1次元クラスタリングで実現できます.
方位クラスタリングでは,音量比を用いて時間周波数行列の各要素を左,中央,右の3クラスタのいずれかに分類する2値(0か1,バイナリ)のマスク行列が推定されます.これは単なるクラスタリング問題なので教師情報を必要とせず,ステレオの音楽信号ならば必ず適用できます.しかしながら,2値のマスク行列で強引に分離された各方位の音源は音質が著しく劣化してしまうほか,そもそも同じ方向にある複数の音源は原理的に分離できないという問題もあります.
方位クラスタリングで音質が劣化してしまう現象は,2値マスクの推定精度が完全でないことに起因しています.正確な2値マスクが推定されないと,時間周波数行列の中で分離したい方位の音源成分の一部が欠損してしまい,人工的な歪みにつながります.
音質劣化と同一方位音源の残留という方位クラスタリングにおける2つの問題を同時に解決する手法として,我々はスペクトログラム修復機能付き教師ありNMF(supervised NMF: SNMF)を提案しています(教師ありNMFについてはコチラ).方位クラスタリングと修復機能付きSNMFを組み合わせることで,ステレオ音源から特定の音源を高品質で分離することができ,これを「ハイブリッドステレオ音源分離」と呼んでいます.
スペクトログラム修復機能付きSNMFは,欠損している時間周波数グリッドをNMFの最適化コスト関数から除外するようになっています.SNMFは事前学習で得られた音色パーツを持っているので,欠損部分はそのパーツから外挿・復元され,音質が回復する仕組みです.
下記のデモンストレーションでは,ステレオ音楽のうちの中央方位の音源を分離します.後段の修復機能付きSNMFでは,分離したい音源の2オクターブの音階信号を事前学習に用いています.方位クラスタリングの出力音は弱々しく,人工的な歪みを多く含んでいますが,修復機能付きSNMFを適用した後は音質が回復し,さらに中央の残留音源が抑圧されていることが分かります.