TIFF'n LZW by fuzzy, yukioino and simpleA
ちょっとだけ、思い出そう。今のところ、長期保存の画像は、圧縮なしのTIFFで残している団体が多ーい。でも、それって、ファイル・サイズ大きいよね、ってのが「そもそもの始まり」。そんで、「じゃ、圧縮しよう」という時に、安易に思いつくのがLZW。でも、この論文は、LZWを心底嫌ってるんだよ。そのあたりを読み取ろー。
今日も、ずんどこ一気に5章片付ける。
5章前半>5章後半>5章結論>おまけ2>おまけ1>おまけ4>scribdへアップ>みんなで打ち上げパーティー@門前仲町(勝手に予定)
今日はちょいと長いけど、id:fuzzy2さんの「5.1-5.2」とid:yukioinoさんの「5.3-5.6」をドッキングさせ、さらにsimple Aの「5.7」までつけちゃう。
『Alternative File Formats for Storing Master Images of Digitisation Projects』http://www.scribd.com/doc/2388286/Alternative20File20Formats20for20Storing20Masters202201
5 TIFFのLZW圧縮 35 5.1 TIFFのLZW圧縮とは何か? 35 5.2 詳細 36 5.2.1 ストラクチャー 36 5.2.2 エンコードとデコード/フィルターリングと圧縮 36 5.3 必要となるストレージ容量に対するフォーマット選択の影響 36 5.4 画質に対するフォーマット選択の影響 36 5.5 長期的な使用可能性に対するフォーマット選択の影響 36 5.6 機能性に対するフォーマット選択の影響 37 5.7 結論 38
5 TIFFのLZW圧縮5.1 TIFF LZWは何ですか?
厳密に言えば、TIFF LZWはひとつのファイル形式はありません。TIFF(Tagged Image File Format)6.0はファイル形式で、LZW(Lempel-Ziv-Welch、開発者の名前の組み合わせ)はTIFFの中で使用される圧縮アルゴリズムです(LZW圧縮に加えて、TIFFはITU_G4、JPEG、およびZIP圧縮を使用するオプションを提供します)。以下は、TIFF6.0形式の簡単な説明とLZW圧縮方法に関する詳しい議論を提供します。
TIFFの仕様の最初のバージョンは、1986年に公開されました。それは非公式にバージョン3.0と呼ばれています。(TIFFの仕様は、マイクロソフトとアルダスによって開発されました。最新バージョンは現在アドビで公開されています。)バージョン4.0は1987年に、そしてバージョン5.0は1988年に公開されました。後者(バージョン5.0)は限られたカラー空間(パレット色)とLZW圧縮のためのオプションを提供しました。特にCYMKカラーの定義とJPEG圧縮の使用を含むベースラインTIFF6.0規格は、1992年から始まりました。さまざまな拡張がバージョン6.0以降で加えられました。(セクション4.2.1以降を参照) --その中でも重要なものは: TIFF/EP(2001年)とTIFF/IT (2004年)、DNG (2005年)、EXIFです。
ベースラインTIFF6.0はISO-IEC標準化されていません。
目的はスキャナとイメージ編集ソフトウェアから出力されるラスター・イメージを保存するためのファイル形式を作成することでした。主な目標は「アプリケーションがイメージデータを交換できる豊かな環境を提供することです。この豊かさは、スキャナと他の画像機器の異なった能力を利用するのに必要」ということです。また、規格は新しい画像要件に基づいて拡張できなければいけません:TIFFを構造化する、ということに高い優先度を与えました。今後の機能強化をするときに、開発者に不要な負担をかけないようにするためです。おかげで様々な拡張がされてきました。その一方、すべての画像編集とビュアーソフトウェアが、すべての拡張を使用しているというわけではない、という不都合もあります。
LZW圧縮アルゴリズムは1984年から始まりました。そして、基本的に1978年に公開されたLZ78アルゴリズムの改良版です。名前の元となったJacob Ziv氏とAbraham Zempel氏がLZ78形式を開発し、その後Terry Welch氏が高速版を開発してからLZWに名称が変更されました。それは(画像に限定されない)ロスレスデータ圧縮アルゴリズムとして開発されました。TIFFで使用されることに加えて、LZWは主にGIF形式における使用で有名になりました。さらに、LZWはユニシスが(開発者Terry Welch*1を通して)アルゴリズムに特許を持っていると主張したために悪名高いです。この特許は2003年(米国)と2004年(ヨーロッパと日本)に期限が切れました、ユニシスは、アルゴリズムへのある改良を持っているとまだ主張していますが。*2
5.2 それはどのように働いていますか?
5.2.1 ストラクチャー
TIFFファイルは、イメージ・ファイルディレクトリ(IFD)と関連するビットマップを参照する8バイトのイメージ・ファイルヘッダー(IFH)から始まります。IFDは、イメージの情報に加えて、実際の画像データへのポインタを含んでいます。*3
ヘッダーとIFDsに含まれているTIFFタグは、基本ジオメトリ情報を含んでいます。それには例えば、イメージデータが編成されている方法、そして圧縮技術が使用されているかどうかなどが含まれます。タグの重要な部分がいわゆるベースラインTIFFに属します*4。これの外側のすべてのタグは拡張されたもので、代替のカラー空間(CMYKおよびCIELab)や様々な圧縮技術などを含んでいます*5。
プライベートタグと呼ばれるタグもあります。TIFF6.0バージョンは、ユーザー固有のタグを用いるためのオプションをユーザに提供します。そしてまた、プライベートIFD*6を通してそれらを開発するためのオプションもまた提供します。先に述べたTIFF/EP、TIFF/ITはこのオプションを利用します。使われたタグはパブリックなので、オープンな拡張の話があります。米国議会図書館の提供するドキュメントにより、この拡張を概観することができます。:http://www.digitalpreservation.gov/formats/content/tiff_tags.shtml
5.2.2 エンコード、デコード/フィルタリング、および圧縮
今後の課題。
5.3 必要となるストレージ容量に対するフォーマット選択の影響
テスト結果から、可逆モードのTIFF LZWを使用すると、非圧縮ファイルと比較して約30%のベネフィットを得られることが判明した。
5.4 画質に対するフォーマット選択の影響
LZW圧縮は可逆性であるため、画質は劣化しない。
5.5 長期的な使用可能性に対するフォーマット選択の影響
「ファイル・フォーマットの評価方法」を「LZW圧縮のTIFF 6.0」フォーマットに適用した結果、0-100のスケールにおいて65.3のスコアをマークした。このレポートで比較された四種類のフォーマットを、上記の方法によって長期保存に最適なものから不適なものの順にソートすると、このスコアをもって「LZW圧縮のTIFF 6.0」は最下位となったが、実際にはスコア65.4の「basic JFIF (JPEG) 1.02」と大して変わらない。
LZW圧縮法に関しては、特許問題の可能性があることと、文化部門におけるTIFFのこのバージョンのマスター・アーカイブ・フォーマットとしての採用率の低さが、低スコアの主な原因となっている(http://www.unisys.com/about__unisys/lzw/を参照)。Unisysが現在も所有権を主張している特許は、以前しばしば話題となって、2003年〜2004年に失効したものとは異なる。同じ評価方法をベースラインのTIFF 6.0に対して適用した時にスコアが高かったのは、LZW圧縮法を使用していないと想定していたからである。したがって、長期的な使用可能性の観点からは「LZW圧縮のTIFF 6.0」の使用は推奨できない。
5.6機能性に対するフォーマット選択の影響
- 書誌的および技術的(EXIF)メタデータを組み込むためのオプション
・内容関連のメタデータ:可
・技術的メタデータ(EXIF):可- 高解像度のアクセス・マスターとして提供する際のフォーマットの適合性
・ブラウザ・サポート:不可
・高解像度画像アクセス:TIFF LZWでは、ウェブ経由の高解像度画像の交換性が非常に限定される。これは可逆モードのフォーマット圧縮を行った後も、サイズが比較的大きいままであるのが原因である。TIFFをサポートするブラウザもないため、JPEGを選択することになる。- 最大サイズ
・ファイルサイズ:4GB。20GBまで拡大しようという提案が出ている。(BigTIFF)*7
米国議会図書館による「品質および機能性ファクター」*8
- 通常の表示
・スクリーン表示:可
・印刷:可
・拡大:可- 明瞭度
・高解像オプション:可
・ビット深度:TIFF 6.0スタンダードでは、各チャンネルにつき1ビット、4ビット、8ビット、16ビット(および理論上は32ビット)のオプションを提供する。- カラー調整
・さまざまなカラースペースのサポート:可(ICCプロファイル非経由)。スタンダード:二値、グレースケール、RGBCMYK、YCbCR, CIEL*a*b
・ガンマ調整を含ませるオプション:不可
・ICCカラープロファイルを含ませるオプション:可。ICCカラープロファイルも含ませることができるが、標準的な方法ではない。TIFF/EPおよびTIFF/ITスタンダードでは、レギュラーTIFF 6.0ファイルにも含まれるプライベートタグを開発している。その一方、Adobe Photoshopでは違う方法を使っているらしい。*9- グラフィックエフェクトおよびタイポグラフィのサポート
・ベクター・イメージ・オプション:不可
・透過情報:可(いわゆるアルファチャンネルを通じて)
・フォントおよびスタイルを特定するオプション:不可- 通常の表示以外の機能
・アニメーション:不可
・マルチページサポート:不可
・マルチ解像度:TIFFでは、マルチ解像度(Image Pyramid)オプションを提供している。これがプライベートタグへの次期添加かどうかは不明。・いずれの場合にせよ、TIFF 6.0 1992スタンダード(通常版および拡張版)には含まれていない。さらに、この機能が閲覧ソフトによってどの程度サポートされるかも不明である。
5.7 結論
フォーマットの詳細
- 規格化:TIFF 6.0のベースラインは、ISO/IECに認められた規格でない。1992年に決まった、この規格の詳細は、Adobe社のウェブサイトから無償で手に入る。LZW圧縮は、1988に決まったTIFF 5.0から、拡張版TIFFの一部となっている。
- 目的:ラスター・イメージのリッチで拡張可能なファイル・フォーマットを提供すること。
- 構造:フォーマットの基本は、ヘッダー(IFH)とディレクトリー(IFD)の両方に書き込まれるタグで形づくられる。
- エンコード:今後の課題。
ストレージ容量に対する影響
- 容量節約は、約30%である。
画質に対する影響
- ロスレスなので、なし
長期的な使用可能性に対する影響
- 評価スコア 65.3
- 主な問題点:LZW圧縮が特許問題を抱えていることで、資料保存の分野でマスター・ファイルとして使うことが敬遠されていること
機能性に対する影響
重要な利点:
- ロスレスであること
- エディター、ビューワーで(広く)サポートされていること
- メタデータの埋め込める可能性が高い
- ビット深度を幅広く選択できる(各チャンネル1〜16ビット)
- EXIFメタデータを追加できること
重要な欠点:
- ロスあり圧縮を選択できないので、高い圧縮率ができない
- ブラウザーがサポートしていないこと
推奨
理由1(代替)に対する考察
LZW圧縮のTIFF 6.0は、長期的に使うことができるという観点から、最も好ましくない。評価スコアも最低である。LZW圧縮の特許がどうなるのか分からない状況なので、代替目的でTIFF+LZWを選択するのは賢くない。LZWはロスレスであり、イメージ情報のロスがないという点では理想的である。しかし、圧縮率が30%であり、ロスレスのJPEG 2000が50%であり、PNGが40%より低い。TIFFをサポートしているソフトは多いが、消費者や資料保存の分野で、あまり使われていない、というのが懸念される。
理由2(やり直しが効かない) に対する考察
特許問題と、あまり圧縮効率が高くないことから、この目的に適しているとは言えない。
理由3(マスター・ファイルはアクセス・ファイルの元になる) に対する考察
高い圧縮を可能とするロスあり圧縮ができないので、この目的に適しているとは言えない。
*1:Welch氏はかつてSperry社で働いていて、そのときに特許の基礎になるアルゴリズムを開発した。その後、Sperry社はユニシス社の一部となった
*2:http://www.unisys.com/about__unisys/lzw/
*3:TIFFは複数のIFDsを持つことができ、これはマルチページTIFFと呼ばれ、ベースラインTIFFとは異なる
*4:http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf.
*5:http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf.
*6:EXIFの拡張のときに、このオプションを使った。http://www.digitalpreservation.gov/formats/content/tiff_tags.shtml
*7:http://www.awaresystems.be/imaging/tiff/bigtiff.html Photoshop では4GBのファイルを開くことができるものとする。 http://kb.adobe.com/selfservice/viewContent.do?externalId=320005&sliceId=1
*8:http://www.digitalpreservation.gov/formats/content/still_quality.shtml
*9:LOC TIFF docu: http://www.digitalpreservation.gov/formats/fdd/fdd000022.shtml#factors.