高速・可逆な実時間データ圧縮アルゴリズムの開発研究
この論文にアクセスする
この論文をさがす
著者
書誌事項
- タイトル
-
高速・可逆な実時間データ圧縮アルゴリズムの開発研究
- 著者名
-
奥村, 晴彦
- 著者別名
-
オクムラ, ハルヒコ
- 学位授与大学
-
総合研究大学院大学
- 取得学位
-
博士 (学術)
- 学位授与番号
-
乙第62号
- 学位授与年月日
-
1999-03-24
注記・抄録
博士論文
資料形態 : テキストデータ プレーンテキスト
コレクション : 国立国会図書館デジタルコレクション > デジタル化資料 > 博士論文
核融合科学研究所の制御データ処理装置は、著者達が平成5年から共同研究として進めてきた「ワークステーションを用いたデータ収集・解析・制御システムの研究」の成果として開発されたものである。これは、大規模システムに対応した構成を取り、容易にCHの拡大を計る事が出来るシステムであり、アナログデータを増幅した後、アナログ・デジタル変換器(ADC)でサンプリング及びデジタイズを行い、多チャンネルの時系列データとして計算機に取り込む。これをバイナリーファイルとして保存する、データベース管理ソフトに登録すると同時にネットワークに実時間配送し、WWWブラウザーによってユーザーがデータ取り込むことが出来るシステムであり、今後の大型システムでのデータ処理システムの一つの大きな方向を示す形となった。<br /> さて、このようなシステムを考える場合、データ量が膨大となり、データの保存・転送のコストが無視できない事が予測される。そのために、圧縮によってデータ量が数分の1になれば、データ保存用のハードディスクなどの費用は数分の1になると同時にネットワークの輻榛(混雑)も数分の1に留めることが出来る。この理由によりデータ圧縮の研究を開始した。<br /> データ圧縮の技術は、情報量の損失のない可逆圧縮と、情報量の損失のある非可逆圧縮の2種類があり、後者は近年マルチメディアへの応用のために盛んに研究が行われているが、計測データに利用することは出来ない。更に、処理形態としては、実時間処理とバッチ処理があり、後者は従来から研究が広く行われてきたが、当然ながら実時間でネットワークを介して監視するデータは高速の実時間圧縮が必要になる。以上の要請のために、今回新たに高速・実時間・可逆なデータ圧縮アルゴリズムを開発し、コーディングに成功し、核融合科学研究所のデータに適用した結果を以下に述べる。<br /> データ圧縮の研究は1948年のShannonの情報理論に端を発し、その後、彼の学生であったHuffmanによって符号化による圧縮方法が考案された。現在のすべての符号化による圧縮はHuffmanにその基礎を置く。その後、1976年にRissanen他によって算術符号化が開発されるが、理解することに多大な努力を要することもあり、それほど一般化されなかった。一方、その後パーソナルコンピュータの発達もあり、Zip-LempelによってLX77,LZ78と言われる圧縮ソフトが1977年及び78年に開発され、一般に利用されるようになった。その後、WelchによってLZ78の改良が行われ、LZWと言われるコードが作られた。一方、著者等は、1988年にLZ77をベースに圧縮ソフトの開発を始め、その年に著者はLZARIを発表し、吉崎はLZHUF、LZarcを発表し、広く日本でも利用されるようになった。そして、1989年に著者は現在広く利用されているLHAと言われるソフトのアルゴリズムを発表し、1990年にC言語で書かれた圧縮ツールを発表した。そして、吉崎がLHAとして完成し、広く利用されるようになった。これとほぼ同じアルゴリズムのソフトとしては、フランスのJean-loup Gaillyによるgzipがある。<br /> さて、圧縮アルゴリズムとして上記に書いた要請があるため、以上の今までの圧縮アルゴリズムを検討し、2つの方法を採用することにした。一つはHuffmanの符号化でり、もう一つはデータの時間的変化を直前の数点のデータから予測する方法を組み合わせた方法である。従って、この方法は予測誤差符号化と言うことが出来る。具体的には、直前の数点のデータから次のデータを予測し、それからの誤差の分布を正規分布及びLaplace分布を用いて、予測誤差の分布グラフを作る・実際のデータとの比較を行うと、誤差分布は正規分布とLaplace分布の間位になっている。これは、時折、急激に変化するデータがあり、そのため予測誤差の2乗和の平均分散を推定すると、分布の中央部の度数分布から推定した分散より大きめの値を得るからである。そして、そのようにして得た分布データを長さ制限のある符号に変換する。ここでは8ビットに制限し、符号化を行った。このような、長さ制限のある符号化を行ったのは最初にLarmore and Hirschbergであり、比較的高速でメモリーを余り使わない効率の良い圧縮方法として知られている。しかし、そのような方法でも大変手間のかかる方法であり、実際に利用される符号は一部に限られるので、より単純で高速な方法を考案した。それは、場合分けを8ビットに制限した時には、406通りしかないので、予めその表を作っておき符号化手順を高速に行うことである。このような方法をとっても1シンボル当たり0.047ビットの損しかなく、これは最悪の場合であるため、実際にはほとんど影響は出ないからである。<br /> 以上のアルゴリズムをコーディングし、実際の核融合科学研究所の大型ヘリカル装置のデータの圧縮を行った。実際のデータは熱電対で測定した温度、歪ゲージで測定した歪、マイクロ波の出力、磁場、コイル電流及び電圧、プラズマからの輻射などでからなるデータ群である。急激に変化するデータはやはり圧縮比はそれほど大きくなく、16ビットの生データに対して、8-10ビット程度になるが、変化の少ないデータでは2ビット以下に圧縮された。そして、それら全体を通じて、元データ(複数の性質の違ったデータをすべて含む)が8.74MBに対して、通常バッチファイルの圧縮に利用されているAip,LHAが4.8MB程度に圧縮し、今回開発したソフト(NIFSqと言う)は、2.00MBに圧縮することができた。従って、従来のソフトより圧縮比で2倍程度性能が良い。更に、圧縮時間であるが、CPUのクロックが400MHzのPentium-II,のパーソナルコンピュータ(オペレーティングシステムはLinux)ではZip,LHAに比べて3分の1から4分の1以下の時間で行うことが出来た。従って、従来のソフトに比べてかなり高速なったことが分かった。そして、適応型のソフトのために、現状のデータ処理システムではほとんど無制限なCHまで圧縮可能のソフトとなった。<br /> 以上より、当初の要請は満足されたと考えるべきである。今後の課題はアルゴリズムの最適化及びユーザーインターフェースを改良した上でMacintoshなども含めた計算機環境での利用を可能にし、C++やJavaに書き直すことなどである。
application/pdf
総研大乙第62号
目次
- Abstract
- 目次
- 第1章 序
- 第2章 計測システムにおけるデータ圧縮の必要性
- 2.1 LHD制御データ処理装置の概要
- 2.2 データ圧縮の必要性
- 第3章 データ圧縮技術の概要
- 3.1 可逆な圧縮と不可逆な圧縮
- 3.2 圧縮率,圧縮比
- 3.3 標準データ
- 3.4 符号化
- 3.5 プレフィックス符号
- 3.6 Shannonのエントロピー
- 3.7 Shannonのアルゴリズム
- 3.8 Huffmanのアルゴリズム
- 3.9 アルファベットの拡大
- 3.10 ランレングス符号化
- 3.11 Golomb-Rice符号
- 3.12 算術符号化
- 3.13 高次Markovモデル
- 3.14 適応型の圧縮
- 3.15 LZ77系のアルゴリズム
- 3.16 LZ78系のアルゴリズム
- 3.17 LHA,Zip,gzip等のアルゴリズム
- 3.18 ブロック整列法
- 3.19 音声圧縮
- 3.20 SHORTEN
- 3.21 LOCO-I
- 3.22 可逆な圧縮の分類
- 第4章 新しい圧縮アルゴリズム
- 4.1 サンプリング・量子化・ノイズ低減
- 4.2 一般化されたランダムウォークモデル
- 4.3 離散化した確率分布
- 4.4 正規分布モデル
- 4.5 Laplace分布モデル
- 4.6 具体的な圧縮法の考え方
- 4.7 パラメータの推定
- 4.8 実際のデータによる例
- 4.9 符号の構成
- 4.1O 長さ制限のあるHuffman符号
- 4.11 可変長符号の生成
- 4.12 実際の符号表の生成
- 4.13 実際の圧縮アルゴリズム(1)
- 4.14 実際の圧縮アルゴリズム(2)
- 第5章 性能試験
- 5.1 人工データによる試験
- 5.2 実際の計測データによる試験
- 5.3 速度の測定
- 5.4 予測に利用する過去のデータの個数
- 5.5 いくつかのデータの例
- 第6章 結論と今後の展望
- 6.1 結論
- 6.2 今後の課題
- 謝辞
- 付録A LHAのアルゴリズム
- A.1 圧縮ファイルの構造
- A.2 LZ77符号化部
- A.3 Huffman符号化部
- A.4 一致位置の符号化
- 付録B LHD制御データ処理装置の圧縮ファイルフォーマット
- B.1 概要
- B.2 非圧縮生データ
- B.3 低速物理量データ
- B.4 高速物理量データ
- B.5 圧縮生データ
- B.6 圧縮物理量データ
- 付録C NIFSqソースコード