研究成果デモンストレーション

独立深層学習行列分析に基づく多チャネル教師あり音源分離

独立成分分析(independent component analysis: ICA)等の既存の統計的独立性に基づくブラインド音源分離は,周波数間の推定成分の順番を整合するパーミュテーション問題を解決しなければなりません(ICAとパーミュテーション問題の詳細はコチラ ).この問題を解決するため,音源の周波数構造の共起性を仮定する独立ベクトル分析(independent vector analysis: IVA)や,音源の時間周波数構造の共起性と低ランク性を仮定する独立低ランク行列分析(independent low-rank matrix analysis: ILRMA)等が提案されています.

これらの手法では,仮定した音源モデルが実際の分離対象音源の時間周波数構造に合致していれば,パーミュテーション問題を回避しながらブラインド音源分離を達成できます.

IVAとILRMAが仮定する音源モデル

しかしながら,実際には音源の時間周波数構造は音源の種類によって大きく異なります.例えば,ボーカルは連続的な音程の変化を持っているため複雑な時間周波数構造となり,低ランク構造を仮定するILRMAでは分離に失敗することがあります.一方,ギターやドラム等の楽器音は,同じ音色の繰り返しを多分に含む事から低ランク構造を有し,ILRMAで高精度に分離することができます.

あらゆる種類の音源に対して有効な万能音源モデルを見つけることは非常に困難です.また,そもそも分離対象の音源をどのようにモデル化するのが適切なのかという問いに対して明確な答えは無く,適切と思われる音源モデル(アルゴリズム)をユーザが知識や経験から選択する必要があります.

音源の典型的な時間周波数構造

分離対象となる音源にとって適切なモデルを,大量のデータから自動的に獲得することができれば,より高精度な音源分離が可能となります.例えば,様々な楽曲から30時間分のボーカルだけの音とギターだけの音を用意し,「ボーカルの成分だけを強調するモデル」と「ギターの成分だけを強調するモデル」を学習して音源モデルとして利用することで,ボーカルとギターの混合信号に適用可能な高品質多チャネル音源分離器を作ることができます.

具体的には,深層ニューラルネットワーク(deep neural networks: DNN)を用いて,ボーカルやギターの音源構造をデータから学習し,これを音源モデルとして利用します.音源分離自体は依然としてIVAやILRMAと同じく線形時不変な空間分離フィルタで行われるため,DNNのみを用いるモノラル音源分離手法よりもはるかに自然な分離音が得られる利点があります.我々は本手法を「独立深層学習行列分析(independent deeply learned matrix analysis: IDLMA,アイドルエムエー)」と名付けています.

ILRMAとIDLMAの比較図

このデモでは,50曲の音楽データから学習したVocal,Bass,及びDrumsのDNN音源モデルを用いたIDLMA及びその生成モデル一般化のt-IDLMAの分離性能を比較します.比較手法として,学習データを用いないブラインド音源分離法のILRMA,その生成モデル一般化のt-ILRMAのほか,同じ学習済みのDNN音源モデルに基づく4手法(Duong+DNN,DNN+WF,IDLMA,t-IDLMA)を比較しました.Duong+DNNは,DNN音源モデルに基づいて空間の混合仮定を推定する手法ですが,分離精度が不安定であり計算コストがILRMAやIDLMAの10倍程度必要という欠点があります.DNN+WFは単一チャネルの音源分離法であり,各音源のDNN音源モデルの出力を使ってWienerフィルタを適用します.なお,Duong+DNNとIDLMAは,空間モデルを10回更新する度にDNN音源モデルを1回適用しています.また,このデモに用いる音楽信号(学習データとテストデータ)は全てSiSECから学術的研究を目的として拝借いたしました.


2マイクロホンアレーで録音された2音源の分離


入力信号 "ANiMAL - Clinic A" (DSD100 001)

入力信号 (Bass, Vocals)

ILRMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

入力信号 "ANiMAL - Rockshow" (DSD100 002)

入力信号 (Bass, Vocals)

ILRMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

入力信号 "Actions - One Minute Smile" (DSD100 003)

入力信号 (Bass, Vocals)

ILRMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

入力信号 "Al James - Schoolboy Facination" (DSD100 004)

入力信号 (Bass, Vocals)

ILRMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

入力信号 "Angela Thomas Wade - Milk Cow Blues" (DSD100 005)

入力信号 (Bass, Vocals)

ILRMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Bass)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Bass)

分離信号 2 (Vocals)

入力信号 "ANiMAL - Clinic A" (DSD100 001)

入力信号 (Drums, Vocals)

ILRMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

入力信号 "ANiMAL - Rockshow" (DSD100 002)

入力信号 (Drums, Vocals)

ILRMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

入力信号 "Actions - One Minute Smile" (DSD100 003)

入力信号 (Drums, Vocals)

ILRMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

入力信号 "Al James - Schoolboy Facination" (DSD100 004)

入力信号 (Drums, Vocals)

ILRMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

入力信号 "Angela Thomas Wade - Milk Cow Blues" (DSD100 005)

入力信号 (Drums, Vocals)

ILRMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-ILRMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

Duong+DNNの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

DNN+WFの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

IDLMAの分離信号

分離信号 1 (Drums)

分離信号 2 (Vocals)

t-IDLMAの分離信号 (nu=1000)

分離信号 1 (Drums)

分離信号 2 (Vocals)

参考文献

IVA
  • T. Kim, T. Eltoft, and T.-W. Lee, "Independent vector analysis: An extension of ICA to multivariate components," in Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, pp. 165–172, 2006.
  • A. Hiroe, "Solution of permutation problem in frequency domain ICA using multivariate probability density functions," in Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, pp. 601–608, 2006.
  • T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, "Blind source separation exploiting higher-order frequency dependencies," IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007.
ILRMA
  • D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model," in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., pp. 276–280, 2015.
  • D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM Trans. Audio, Speech, and Lang. Process., vol. 24, no. 9, pp. 1626–1641, 2016.
  • D. Kitamura, N. Ono, H. Sawada, H. Kameoka and H. Saruwatari, "Determined blind source separation with independent low-rank matrix analysis," Audio Source Separation, S. Makino, Ed. (Springer, Cham, 2018), pp. 125–155.
t-ILRMA
  • S. Mogami, D. Kitamura, Y. Mitsui, N. Takamune, H. Saruwatari, and N. Ono, "Independent low-rank matrix analysis based on complex Student's t-distribution for blind audio source separation," Proc. MLSP, 2017.
  • D. Kitamura, S. Mogami, Y. Mitsui, N. Takamune, H. Saruwatari, N. Ono, Y. Takahashi, and K. Kondo, "Generalized independent low-rank matrix analysis using heavy-tailed distributions for blind source separation," EURASIP JASP vol. 2018, no. 1, p. 28, 2018.
空間相関行列モデル(Duongモデル)とDNNを組み合わせた多チャネル音源分離(Duong+DNN)
  • A. A. Nugraha, A. Liutkus, and E. Vincent, "Multichannel audio source separation with deep neural networks," IEEE/ACM Trans. ASLP, vol. 24, no. 9, pp. 1652–1664, 2016.
  • A. A. Nugraha, A. Liutkus, and E. Vincent, "Deep neural network based multichannel audio source separation," Audio Source Separation, S. Makino, Ed. (Springer, Cham, 2018), pp. 157–185.
IDLMA及びt-IDLMA
  • S. Mogami, H. Sumino, D. Kitamura, N. Takamune, S. Takamichi, H. Saruwatari, and N. Ono, "Independent deeply learned matrix analysis for multichannel audio source separation," Proc. EUSIPCO, pp. 1571–1575, 2018.
  • N. Makishima, S. Mogami, N. Takamune, D. Kitamura, H. Sumino, S. Takamichi, H. Saruwatari, and N. Ono, "Independent deeply learned matrix analysis for determined audio source separation," IEEE/ACM Trans. ASLP, vol. 27, no. 10, pp. 1601–1615, 2019.