Demonstrations of Research


 独立深層学習行列分析による音源分離
独立成分分析等の既存の統計的独立性に基づくブラインド音源分離は,周波数間の推定成分を整合するパーミュテーション問題を解決しなければなりません.このためには,音源の時間周波数構造のグループスパース性(独立ベクトル分析)や低ランク性(独立低ランク行列分析,ILRMA)をモデルとして仮定する必要がありました.
しかしながら,音源にとって適切なモデルを仮定することは通常難しく,モデル誤差が問題となります.例えば,独立低ランク行列分析では,時間周波数構造があまり低ランクにならない音声信号の分離が不安定になります.
そこで,音源の適切なモデルを学習データからディープニューラルネットワーク(DNN)によって獲得し,これを独立性に基づく音源分離に利用する新しい手法の

独立深層学習行列分析(independent deeply learned matrix analysis: IDLMA,アイドルエムエー)

を提案しています.例えば,「ギター」や「ボーカル」等,楽器別の演奏データを用いて,「混合信号から特定の楽器音を抽出するDNN音源モデル」を構築し,IDLMAの音源モデルに利用することで,適切な音源モデルに基づく高精度な時不変線形分離フィルタを推定できます.
このデモでは,50曲の音楽データから学習したVocal,Bass,およびDrumsのDNN音源モデルを用いたIDLMAの分離性能を比較します.比較手法として,学習データを用いないブラインド音源分離手法のILRMA,その生成モデル一般化のt-ILRMAのほか,同じ学習済みのDNN音源モデルに基づく3手法(Duong+DNN,DNN+WF,IDLMA)を比較しました.Duong+DNNは,DNN音源モデルに基づいて空間の混合仮定を推定する手法ですが,分離精度が不安定であり計算コストがILRMAやIDLMAの10倍程度必要という欠点があります.DNN+WFは単一チャネルの手法であり,各音源のDNN音源モデルの出力を使ってWienerフィルタを適用します.
なお,Duong+DNNとIDLMAは,空間モデルを10回更新する度にDNN音源モデルを1回適用しています.また,学習データとテストデータはSiSEC2016 web siteで公開されているDSD100を学術的研究目的として拝借いたしました.

参考文献:

2マイクアレーで録音された2音源の分離

信号は全てRWCPデータベース収録のE2Aインパルス応答(残響時間 300 ms)を畳み込んで作成しました.



"ANiMAL - Clinic A" (DSD100 001)
入力信号
(Bass, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)


"ANiMAL - Rockshow" (DSD100 002)
入力信号
(Bass, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)


"Actions - One Minute Smile" (DSD100 003)
入力信号
(Bass, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)


"Al James - Schoolboy Facination" (DSD100 004)
入力信号
(Bass, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)


"Angela Thomas Wade - Milk Cow Blues" (DSD100 005)
入力信号
(Bass, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Bass)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Bass)
分離信号 2
(Vocals)


"ANiMAL - Clinic A" (DSD100 001)
入力信号
(Drums, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)


"ANiMAL - Rockshow" (DSD100 002)
入力信号
(Drums, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)


"Actions - One Minute Smile" (DSD100 003)
入力信号
(Drums, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)


"Al James - Schoolboy Fascination" (DSD100 004)
入力信号
(Drums, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)


"Angela Thomas Wade - Milk Cow Blues" (DSD100 005)
入力信号
(Drums, Vocals)

ILRMA (ブラインド手法) による分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-ILRMA (ブラインド手法) による分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)

Duong+DNNによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

DNN+WFによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

IDLMAによる分離信号
分離信号 1
(Drums)
分離信号 2
(Vocals)

t-IDLMAによる分離信号 (nu=1000)
分離信号 1
(Drums)
分離信号 2
(Vocals)





    Top     Research Interests     Academic Background     Publications     Demonstrations     Dataset     Program Codes     Work History     Awards     Competitive Funds     Contact me     Links