近傍ハッシュ法によるエラー許容頻出パターン列挙(一般セッション3) Neighborhood hashing for enumerating all frequent patterns allowing errors

抄録

ゲノム配列から,ある機能発現に関わる遺伝子を発見したいという要望がある.このような遺伝子は対象となるゲノム配列集合においてエラーを含んだ形で類出する配列パターンの形をとることがしばしばある.本研究では,エラーを含む文字列集合から,ある長さの頻出部分文字列パターンを高速に全列挙するアルゴリズムを提案する.エラーの影響から通常のパターン列挙と異なり,入力文字列には現れないパターンも列挙の対象となる.提案手法ではパターン頻出性の必要条件を利用して最小限の候補パターンをハッシュ格納することにより,高速な全列挙を実現する.

We propose a practically fast algorithm that enumerates all m-length substring patterns appearing in at least θ sequences among a given set of string sequences, where at most k errors are allowed for each appearance. The problem of enumerating such substring patterns is derived from the genome science, where frequent substring patterns allowing errors are candidates of a gene related to a certain function. From this context, some pattern should be enumerated even if it does not appear in any sequence, because it may match a sufficient number of sequences by allowing errors. In order to prevent overlooking such potential patterns, we propose a hash-based enumeration algorithm. The algorithm stores not only a substring pattern appearing in a sequence but also its neighboring patterns. By using several techniques/conditions to exclude non-frequent patterns, our algorithm achieves an efficient enumeration of frequent substring patterns allowing errors.

収録刊行物

情報処理学会研究報告. BIO, バイオ情報学   [巻号一覧]

情報処理学会研究報告. BIO, バイオ情報学 2008(58), 63-66, 2008-06-19  [この号の目次]

一般社団法人情報処理学会

参考文献:  3件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

プレビュー

プレビュー

各種コード

  • NII論文ID(NAID) :
    110006839053
  • NII書誌ID(NCID) :
    AA12055912
  • 本文言語コード :
    ENG
  • 資料種別 :
    ART
  • ISSN :
    09196072
  • NDL 記事登録ID :
    9570405
  • NDL 雑誌分類 :
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号 :
    Z14-1121
  • 収録DB :
    CJP書誌  NDL  NII-ELS