研究成果デモンストレーション

教師基底変形型非負値行列因子分解に基づく音源分離

非負値行列因子分解(nonnegative matrix factorization: NMF)は,非負の行列(図中の行列X)を別の2つの非負行列(図中の行列T及び行列V)の行列積に分解する数理アルゴリズムであり,行列の低ランク近似を用いたパターン抽出や教師無し学習に使われます.

音響信号にNMFを適用する場合,周波数×時間で表される行列(図中の行列X)にNMFを適用します.その結果,音の基底(音色パーツ,図中の行列T)とそのアクティベーション(音量や音価,図中の行列V)が得られます.この音色パーツやアクティベーションを編集・操作することで音の加工や音源分離ができる他,自動的に楽譜を作成する自動採譜技術等にも活用できる可能性があります.

音響信号のNMF分解のイメージ図

混合されている音源から目的の音のみを分離する「音源分離」技術では,分離したい音源のサンプル音を用意し,その音色パーツをNMFで事前に学習しておく手法がよく利用されます.これを「教師ありNMF」と呼びます.

教師ありNMFでは,まず学習ステージのNMFで分離したい音の音色パーツ(図中の行列T)を学習します.その後,分離ステージのNMFでは,事前学習した音色パーツを固定し,その他の行列(図中の行列G,行列H,及び行列U)を推定します.結果的に,事前学習した音色パーツに該当する音源(図中のTG)とその他の音源(図中のHU)に分離され,これらを時間波形に戻すことで音源分離が達成されます.

教師ありNMFの図

教師ありNMFでは,分離したい音源のサンプル音(教師音)を事前に用意する必要があります.例えば,音楽の中からピアノの音だけを分離したい場合,同じ音のピアノのサンプル音(音階を一音ずつ鳴らした音源等)が必要となります.しかしながら,既に混合音として存在している音楽に対して,分離したい音源の(同じ演奏者が同じ楽器音で同じような音色で弾いている)サンプル音を用意することは現実的に不可能です.一般的にユーザが用意できるサンプル音は,「自分が楽器で演奏した音階」や「MIDI・DAW等で人工的に作成した楽器の合成音」等です.

教師ありNMFの問題の図

上記の問題を解決するために,事前に用意したサンプル音と「同じ音色」ではなく「近い音色」の音源成分のみを混合音から分離する手法として「教師基底変形型NMF」を新たに提案しました.この手法では,事前学習した分離したい音の音色パーツ(図中の行列T)に対して,正負の値を取りうる変形項(図中の行列D)を付与し,教師基底を変形するアプローチを実装しています.教師基底を変形しすぎてしまうと,分離したい音以外の成分も表せてしまうため,変形項の取りうる正負値の範囲には制約が課せられています.

教師基底変形型NMFの図

下記のデモンストレーションでは,あるMIDI音源で作成した音楽信号の音源分離に対して,別の異なるMIDI音源で作成したサンプル音(2オクターブの音階信号)を用います.教師基底変形型NMFでは,与えられたサンプル音に近い音色の成分を分離抽出できます.

5音源からなる入力信号

入力信号
(Sax, A.Guitar, E.Guitar, Bass, Drums)

教師基底変形型NMFの結果(Saxの分離)

教師信号
(別のMIDI音源によるSaxの音階)
分離信号
(Sax)
残りの信号
(A.Guitar, E.Guitar, Bass, Drums)

教師基底変形型NMFの結果(Bassの分離)

教師信号
(別のMIDI音源によるBassの音階)
分離信号
(Bass)
残りの信号
(Sax, A.Guitar, E.Guitar, Drums)

本楽曲の著作権はヤマハ株式会社が保有しております.無断で複製,頒布を行なうと著作権法違反となりますので,ご注意くださいますようお願い申し上げます.
Copyright © 2014 Yamaha Corporation. All rights reserved.

参考文献

  • D. D. Lee and H. S. Seung, "Learning the parts of objects by non-negative matrix factorization," Nature, vol. 401, pp. 788–791, 1999.
  • D. D. Lee and H. S. Seung, "Algorithms for non-negative matrix factorization," in Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562.
  • P. Smaragdis, B. Raj, and M. Shashanka, "Supervised and semi-supervised separation of sounds from single-channel mixtures," in Proc. Int. Conf. Independent Compon. Anal. Signal Separation, 2007, pp. 414–421.
  • D. Kitamura, H. Saruwatari, K. Yagi, K. Shikano, Y. Takahashi and K. Kondo, "Music signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties," IEICE Trans. Fundamentals Electron. Commun. Comput. Sci., vol. E97-A, no. 5, pp. 1113–1118, 2014.
  • D. Kitamura, H. Saruwatari, K. Shikano, K. Kondo, and Y. Takahashi, "Music signal separation by supervised nonnegative matrix factorization with basis deformation," Proc. DSP, 2013.