本ページは論文"Determined BSS based on time-frequency masking and its application to harmonic vector analysis"のデモンストレーションです.
ブラインド音源分離(BSS)とは,音源やマイクロフォンの位置等の混合系が未知の条件で,複数の音源が混合した観測信号のみから混合前の個々の音源信号を推定する技術です.音源の数とマイクロフォンの数が等しい場合は,決定的BSSと呼ばれます.BSSは,音声認識や補聴器,自動採譜等のあらゆる音アプリケーションのフロントエンド技術に用いることができます.
決定的BSSの歴史の中で最も成功を収めた手法は,2006年に提案された独立ベクトル分析(IVA)及び2016年に提案された独立低ランク行列分析(ILRMA)です(IVAとILRMAについてはコチラ).これらの手法は音源モデルと呼ばれる,各音源の時間周波数構造に関する仮定を活用しています.IVAでは,各音源の時変な音量変化を表現するために周波数ベクトルモデルが仮定され,またILRMAでは,各音源で類似したスペクトルパターン(音色)が繰り返し生じることを表現するために低ランク時間周波数モデルが仮定されています.
正確な音源モデルはBSSの性能を向上させます.より効果的な音源モデルを探求するために,我々は時間周波数マスキングに基づく決定的BSS(TFMBSS)を提案しています.TFMBSSでは,いかなる時間周波数マスクもプラグアンドプレイで音源モデルに用いることができます.例えば,単一チャネル調波打撃音分離(HPSS)アルゴリズムを用いたTFMBSSも提案されています.
音声や音楽を含むほとんどすべての音源信号は調波構造を持ちます.調波構造とは,基本周波数とその倍音が生起する構造のことです.この基本原理に基づき,我々は調波ベクトル分析(HVA)を提案しています.HVAは,現在の各分離音源の調波構造をさらに強調するような時間周波数マスクを求めるTFMBSSです.図は典型的な音声のスペクトルと,その調波構造をケプストラム閾値処理により強調した例を示しています.左上図に示す音声の対数振幅スペクトルはフーリエ変換を施すことで,右上図のようにケプストラムに変換されます.このケプストラムを左下図のように閾値処理し,さらに逆フーリエ変換を施すことで,右下図のような調波構造が強調された対数振幅スペクトルを得ることができます.
HVAの変数最適化では,前述の処理により,各推定音源の調波構造が反復的に強調されます.そのため,調波構造を持つ成分は自動的に同じ音源としてまとめられ,反復最適化の中で複数の音源が徐々に分離されていきます.この流れを図で示しています.
図は,2音源決定的BSSの条件下で,HVAの最初の5回の反復における(白色化された)時間周波数信号とマスクを示しています.各音源の時間周波数マスクが,調波構造(時間周波数領域ではストライプ状のパターン)を持つように劇的に変化していく様子を見ることができます.結果的に,推定音源は混合前の音源の時間周波数信号に近づいていきます.
下記のデモンストレーションでは,IVA,ILRMA,及びHVAの3手法で音声の混合信号をBSSしています.信号は2チャネルで観測した2音源の混合を用いており,残響時間130 msの部屋で実際に録音された混合信号です.
このデモに用いる音楽信号は全てSiSECから学術的研究を目的として拝借いたしました.