文字間統計情報に基づく口語文字列の自動抽出 Automatic Extraction of Oral Expressions Based on Letter Cooccurrence Statistics

この論文にアクセスする

この論文をさがす

著者

抄録

統計情報に基づく自然言語処理が盛んになる中で, 訓練データとしてのコーパスの影響は非常に大きい. 生コーパスをそのまま利用する場合には, コーパスの取得が容易であるため, 目的に合ったドメインのコーパスを大量に入手できるという利点がある. しかし, 生コーパスは人間の言語の性質上, 未登録語や未知の言い回し, 非文とされるような文の出現等を多く含むことがほとんどであり, これらが処理の精度の低下を招くという問題がある. 特に, 口語表現の処理は, 電子メールでの利用等利用頻度の高いものであるにも関わらず, 十分に研究されているとは言い難い. 本稿では, 生コーパスに含まれる未知の語句および言い回しに着目し, 電子メール文書内に出現する意味のある文字列を自動的に抽出する実験を行なった結果について報告する. 本システムは事前に与えられた電子メール文書中の各文字の共起確率を利用して, テストコーパスとして与えられた電子メール文書から意味のある文字列を抽出し出力する. 本システムを利用することで, 同じテストコーパスを既存の形態素解析ツールで解析した結果未登録語として処理された文字列の69.06%を抽出することに成功した.

Researches based on statistical information have been more significant in the field of natural language processing. The use of raw corpora is fascinating, as it is easy to obtain a certain amount of non-tagged texts. However raw corpora often contain unknown words and phrases, and this causes low accuracy of the experiments. Colloquialism has not been worked enough because of this problem, though the processing of colloquialism is strongly required for the emails and other tasks. In this paper we propose a simple method to obtain domain-specific sequences from unrestricted texts using statistical information only. Our method needs a non-tagged training corpus. We use the statistical information drawn from the training corpus to extract semantic character sequences automatically. We had experiments on sequence extraction on email texts, and succeeded in extracting significant semantic sequences in the test corpus. The sequences our system salvaged contain casual terms, proper nouns, and sequences with representation change such as pronunciation extension.

収録刊行物

  • 自然言語処理 = Journal of natural language processing  

    自然言語処理 = Journal of natural language processing 8(3), 39-57, 2001-07-10 

    一般社団法人 言語処理学会

参考文献:  17件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

被引用文献:  1件

被引用文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

各種コード

  • NII論文ID(NAID)
    10021991458
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    5840998
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ