長い日本語文における並列構造の推定

黒橋, 禎夫, 長尾, 真

日本語情報処理において未解決のまま放置されている問題の1つに長い文を正しく構文解析することがほとんどできないという問題がある文が長くなる主な原因は 1文中に多くの内容が並列的に述べられているところにあるしたがってこのような並列する構造を正しく認識できれば長い文も短くすることができ文の解析が正しくできる可能性が高くなる多くの文において並列する部分は何らかの意味において類似しているそこで文中の並列構造を類似した2つの文節列としてとらえこれをダイナミックプログラミングの手法によって発見することを実現した並列構造としては名詞句の並列のほかにいわゆる連用中止法といわれている述語句の並列等を対象としたまず日本語文を文節ごとに区切りすべての文節対について類似度を計算するそして並列の存在を示す助詞や連用中止などの前後においてバランスのとれた並列構造を優先すること文を意味的に区切っているある種の表現をこえて並列の範囲が広がる可能性は少ないこと並列構造の直後に「など」のような語が現れやすいこと等を考慮に入れた上で類似度の総和が最も大きい2つの文節列を求めこれを並列構造の範囲とする方法を考案した180文に対して実験を行ったところこの方法によって82%の精度で並列構造を推定することができた

長い日本語文における並列構造の推定

Bibliographic Information

Search this article

Abstract

Journal

Citations (34)*help

References(5)*help

Keywords

Details 詳細情報について

Export

Report a problem

長い日本語文における並列構造の推定

Bibliographic Information

Search this article

Abstract

Journal

Citations (34)*help

References(5)*help

Keywords

Details 詳細情報について

Export

Report a problem

Project list