スーパーコンピュータ「京」上でのエクソーム解析パイプラインの開発  [in Japanese] Development of Exome Analysis Pipeline on the K Computer  [in Japanese]

Access this Article

Search this Article

Abstract

近年,次世代シーケンサなどに代表される実験技術の向上による爆発的な生物学データの増加に対応するため,スーパーコンピュータを用いた効率的なデータ解析,処理技術の開発は喫緊の課題となっている.ゲノム情報のうちタンパク質に翻訳されるエクソン領域の配列のみを網羅的に解析するエクソーム解析は,ゲノム配列全体を対象とする場合と比べて処理量は大幅に削減されるため効率的な解析が可能となるが,一方で将来の個別化医療に向けた解析では,数百人から千人規模のデータを現実的な時間で処理する必要があり,小型のPCクラスタでは処理が追いつかない大規模な解析が必要である.本研究では,理化学研究所のスーパーコンピュータ「京」上にエクソーム解析パイプラインを開発し,大規模エクソーム解析を目的とした生命情報解析環境を構築した.「京」上で実際に動作するエクソーム解析パイプラインの構築に加え,パイプラインの各処理でMPIによるMaster-Workerモデルでタスク分散処理を行うことで投入ジョブ数を軽減し,さらにタスクの分割などを改良することで,並列性能を改善して処理の高速化を図った.

Recently, development of efficient biological data analysis systems on a supercomputer has been highly required in order to tackle the vast amount of biological data generated by the latest experimental techniques such as a next-generation DNA sequencer. Exome analysis, which analyzes the regions in a genome that will remain in a matured RNA, is useful because it targets only exonic sequences in a genome and enables effective search for important mutations throughout the genome. On the other hand, to meet the demands of current medical researches such as application to personalized genome analysis, we need to deal with the situation in which hundreds to thousand exome sequences are needed to be analyzed in realistic time. It is of significant importance to develop a high-performance large-scale sequence analysis environment. In this study, we developed an exome analysis pipeline on the K computer. We not only developed a pipeline useful for biologists on a supercomputer but also improved the parallel performance of the pipeline using a master-worker model task distribution framework implemented by MPI and efficient task partitioning strategy.

Journal

  • 情報処理学会論文誌コンピューティングシステム(ACS)

    情報処理学会論文誌コンピューティングシステム(ACS) 9(2), 15-33, 2016-07-14

Codes

  • NII Article ID (NAID)
    170000148059
  • NII NACSIS-CAT ID (NCID)
    AA11833852
  • Text Lang
    JPN
  • Article Type
    article
  • ISSN
    1882-7829
  • Data Source
    IPSJ 
Page Top