同質性・反復性・規則性を考慮した階層隠れセミマルコフモデルに基づく統計的音楽構造解析

Search this article

Abstract

本稿では,音楽音響信号を音楽的に意味のあるひとまとまりの区間(セクション)に分割し,それらをいくつかのクラスに分類する音楽構造解析手法について述べる.我々は,音楽構造を決定する3つの基本的側面,すなわち各セクション内における音色の同質性,同じクラスのセクションにおけるコード進行の反復性,およびセクション長の規則性に着目し,これらを確率的な枠組みで統一的に取り扱うための階層隠れセミマルコフモデルを提案する.本モデルは,セクション系列とコード系列に対応する2階層の潜在変数系列を持ち,音色特徴量(メル周波数ケプストラム係数)とコード特徴量(クロマベクトル)を観測変数系列として出力する.まず,上位のセクション系列は,各セクションの継続時間長を考慮したセミマルコフモデルに従うと仮定し,音色の同質性を担保するため,セクションクラスごとに音色特徴量の出力分布を仮定する.一方,下位のコード系列は,同じクラスのセクションでは同じ順序でコード進行が反復されるように,セクション条件付きLeft-to-Right型マルコフモデルに従うと仮定する.各パラメータに共役事前分布を導入してベイズモデルを構成することにより,セクション数とコード数を過剰に設定しても,観測データに合わせて適切な個数のセクションとコードからなる潜在変数系列を推定できる.実験により,同質性と規則性の統合による性能向上を確認した.また,提案法による音楽構造解析結果は正解データと類似する統計的性質を持ち,分割・分類精度において代表的な既存手法より優れていることを確認した.

This paper describes a music structure analysis method that splits music audio signals into meaningful segments (musical sections) and clusters them. Focusing on three fundamental aspects that characterize musical structures, homogeneity of timbre within each section, repetitiveness of chord progression in sections of the same class, and regularity of durations of sections, we propose a hierarchical hidden semi-Markov model (HSMM) that can deal with these aspects in a unified probabilistic framework. This model has two sequences of latent states corresponding to a sequence of sections and that of chords. The timbral features (mel-frequency cepstrum coefficients) and chord features (chroma vectors) are emitted as observed variables. The higher-level sequence of sections is assumed to follow a semi-Markov model that explicitly represents the duration of each section. The emission distributions of timbral features are assigned to individual section classes to guarantee the homogeneity of timbre. The lower-level sequence of chords is assumed to follow a section-conditioned left-to-right Markov model. This model represents the repetition of chord progressions in sections of the same class. We formulate a Bayesian model by putting conjugate prior distributions. The sequences of latent states with appropriate effective numbers of sections and chords can be estimated even if too many sections and chords are assumed. Evaluation experiments showed that the joint modeling of homogeneity and regularity improved the performance. In addition, the proposed method can yield analysis results with similar statistical properties as the ground truth data and has higher accuracy than conventional methods in segmentation and clustering.

Journal

Related Projects

See more

Details 詳細情報について

Report a problem

Back to top