読者です 読者をやめる 読者になる 読者になる

simpleA記

馬にふつまに 負ほせ持て

いきなり結論

書籍電子化 JPEG 2000 Alternative File Formats


私の担当、6章結論を載せます。「いきなり6章結論ですか?」なんて思わないで。だって、論文を最初から順番に読むなんて、フツーの人がやることだよ。慣習に流されてたんじゃー、これからの世の中生きてけませーん。


ってな個人的信条は置いといて、実を言えば、すでに6章読んでもOKなんです。だって、http://d.hatena.ne.jp/Belgian-beer/20080601で、序章がぼんやりと見えてきているので、それ読んで、すっとんで6章読んでも、ぜんぜーん支障ないんだもーん。


そんで、次にid:sergejOさんから、「おまけ3*1」が届く予定だから、それを読むと、骨組みは理解できる。あとは、みんなから届く、「お肉」で補強していきましょ、ってなプラン。






『Alternative File Formats for Storing Master Images of Digitisation Projects』http://www.scribd.com/doc/2388286/Alternative20File20Formats20for20Storing20Masters202201

6 結論 40


6 結論


フォーマットについて
JPEG 2000、PNG、そしてJPEGは、ISO/IEC標準となっている。TIFF 6.0は一般公開されて、Adobeから詳細情報が提供されているが、ISO/IEC標準とはなっていない。


必要となるストレージ容量に対するフォーマット選択の影響
ストレージ・テストを行うとき、2つの条件があった:

  • RGB各8ビットで計24ビットのファイルを用いた
  • おおよそ100枚くらいのオリジナル画像を2セット用意して、片方はコントラストの低いテキスト・ページであり、もう一つは写真ページであった。
ファイル・フォーマット 圧縮なしのTIFFからのストレージ節約率*2
可逆のJPEG 2000 Part 1 52%
不可逆のJPEG 2000 Part 1 91〜98%
PNG 43%
JPEG 89〜96%
LZW圧縮のTIFF 30%


(異なる種類の画像ファイルを2セット用意したが)異なるセット間で、圧縮率に目立った違いはなかった。しかし、コントラストの高いテキスト・ページを圧縮してみると、より高い圧縮率が得られた。これは、今後の研究課題の一つとなっている。


明らかに、JPEG 2000 Part1が、可逆および不可逆の両方において、最も効果的である。しかし、JPEGは、JPEG 2000と比べて、ノイズが出てしまう圧縮率が低い、ということが言えるが、それ以外の点では、不可逆のJPEG 2000にひどく劣るということはない。


画質に対するフォーマット選択の影響
当然、可逆のJPEG 2000 Part 1、PNG、そしてLZW圧縮のTIFFは、画質の低下は起こらない。


不可逆のJPEG 2000 Part 1やJPEGなどの不可逆圧縮では、圧縮率が上がると、画質が劣化する。

  • 圧縮率が上がっていくにつれて、徐々に、JPEG画像のシャープさが失われる。JPEG 2000では、圧縮率を極端に上げた場合に限り、シャープさが失われる。
  • グレースケール画像やカラー画像をJPEGないしJPEG 2000で圧縮した場合、(カラーシフトやデルタE(色差)など)測定可能な画質ロスは起こらない。しかし、圧縮率を極端に上げた場合、カラフルな色使いが「単純化」されてしまい、極端なケースでは、不自然なトーンになったり、バンディングと呼ばれる「帯状の幾何学模様」が発生する。(これらは、エンコードの過程で行う定量化によって引き起こされる。)
  • 圧縮率をあげたときに発生するノイズは、JPEGの場合も、JPEG 2000の場合も、かなり似ている。ただ注意しておくべきことは、これらのノイズは、JPEG 2000に比べてJPEGの方が、早い段階で発生するということである。
    ○バンディング (カラーないしトーンの変化が荒くなる)
    ○ピクセレーション (タイル状に見えてくる)
    ○コントラストの高い部分がぼんやりする(Woolly Effect)


今後の研究課題として、不可逆圧縮をした場合に発生する画質劣化を、PSNRと呼ばれる「画像の信号と混入したノイズとの比率」として計算することである。


長期的な使用可能性に対するフォーマット選択の影響


(序章や、おまけ2および3で紹介した)ファイル・フォーマットの評価方法を、これまで説明してきた各フォーマットや、これまでマスター・ファイルとして使われてきた非圧縮のTIFFフォーマットに適用してみると、以下の表のような結果となり、上から順番に長期保存に適していると言える。

順位 ファイル・フォーマット 点数
1 非圧縮のTIFF 6.0 84.8
2 PNG 1.2 78.0
3 可逆のJPEG 2000 Part 1 74.7
4 不可逆のJPEG 2000 Part 1 66.1
5 JPEG 1.02 65.4
6 LZW圧縮のTIFF 65.3


要するに、(画像ファイルの)長期的な使用可能性という観点で言うと、非圧縮のTIFFを使うという選択肢が最も無難である。ところが、実際のプロジェクトでは、ファイル・サイズが大きくなり、結果、ストレージ・コストが高くなるため、維持可能なオプションではないと思われる。


「ファイル・フォーマットの評価方法」は、まだ発展途上にある。この方法に関するフィード・バックを待っている状態である。加えて、この方法を実際に適用したという事例もまだ少ない。この研究で得られた経験から、この方法を改良する必要がある。したがって、この方法で長期的なフォーマットを選択するということは、時期尚早である。この方法によって得られた結果を、過去の知識や経験に照らし合わせてみる必要がある。


上で紹介した表から、期的な使用可能性という観点で言うと、「非圧縮のTIFF6.0」が最も無難であることが分かる。もしその代替フォーマットを選択する必要があるとすれば、(ともに可逆圧縮である)「PNG 1.2」と「不可逆のJPEG 2000」が、候補となる。ここでまず、私たちの採用した方法の欠点がある。この方法の中で、「資料保存の分野で、マスター・ファイルのフォーマットとして使われている」という項目があり、これは現在の採用状態を反映して、点数に大きく影響する。しかし、現在の方法だと、将来の採用状態の予想が含まれない。「PNG 1.2」も「不可逆のJPEG 2000」も、資料保存の分野において、マスター・ファイルのフォーマットとして大規模に使われてはいない。しかし、JPEG 2000のほうが、より将来性があると言える。PNGは1996年からあるが、JPEG 2000は2000年からの規格である。可逆圧縮フォーマットとしては、JPEG 2000の方が好ましいと思われる。


もう一つ、この方法で考慮されていない点がある。それは、不可逆圧縮をかけたことによる画質の劣化である。質的に劣る画像ファイルを長期保存することも可能であるが、スキャンをもう一度することが許されない状況においては、スキャン画像を短期的にしようすることだけでなく、長期的にも使えるように考えることが必要である。この観点から考えなくてはならないことは、画質の劣化に関して今日の基準でOKなものが、将来の、異なる使い方においてはNGになるかもしれない、ということである。例えば、より良い解像度のディスプレイや、より大きなディスプレイを使うかもしれない。(その画像ファイルが)長期的に使うことができるのかどうかを考えれば、不可逆圧縮はあまり推奨できない。とれは特に、オリジナルを電子化して、電子化したほうを長期保存していこうと考えている場合に当てはまる。(序章で述べた、3つの理由のうち、1番目の原本の代替として残したい、という場合が該当する。)それでも、不可逆圧縮が選択された場合、将来性を考慮すると、不可逆のJPEG 2000よりもJPEG 1.02がお勧めである。


「ファイル・フォーマットの評価方法」を用いて、長期的な使用可能性という観点からだけで判断すると、非圧縮のTIFFの替わりとしては、以下のフォーマットが順番にお勧めである。

  1. 可逆のJPEG 2000 Part 1
  2. |PNG 1.2
  3. JPEG 1.02
  4. 不可逆のJPEG 2000 Part 1
  5. LZW圧縮のTIFF


機能性に対するフォーマット選択の影響
マスター・ファイルの保存という点で、最も関連する機能を以下の表にまとめる。

機能 その機能が使えるファイル・フォーマット
可逆圧縮オプション JPEG 2000、PNG、TIFF+LZW
不可逆圧縮オプション JPEG 2000、JPEG
可逆・不可逆の選択オプション JPEG 2000
書誌メタデータの追加オプション JPEG 2000、PNG、JPEG、TIFF+LZW
EXIFメタデータとして追加する標準的方法 JPEG、TIFF+LZW
ブラウザーの対応 JPEG、PNG
異なる解像度のファイル生成
(高解像度のアクセス・ファイルに使えるかどうか)
JPEG 2000、TIFF+LZW、微妙にJPEGも
最大サイズ JPEG 2000:制限なし(2の64乗)
PNG:今後の調査課題
JPEG:今後の調査課題
TIFF+LZW:4GB
ビット深度 JPEG 2000:RGB各1〜38ビット
(クラス2の場合:RGB各16ビット
PNG:RGB各1〜16ビット
JPEG:RGB各8ビット
TIFF+LZW:RGB各1〜16ビット
(理論的には:RGB各1〜32ビット
標準でサポートするカラースペース JPEG 2000:二値、グレースケール、sRGB、インデックスカラー
PNG:二値、グレースケール、sRGBインデックスカラー
JPEG:グレースケール、RGB
TIFF+LZW:二値、グレースケール、RGB、CMYK、YCbCr、CIEL*a*b
ICCプロファイル使用オプション JPEG 2000、PNG、JPEG、TIFF+LZW*3
マルチページサポート TIFF+LZW


要約
上で述べてきたことを、表にまとめる。表中の数字は、単に各項目における達成度合いを示す。

  可逆のJPEG 2000 不可逆のJPEG 2000 PNG JPEG TIFF+LZW
正式な規格化 5 5 5 5 5
ストレージ容量節約 3 5 2 4 1
画質 5 4 5 3 5
長期使用可能性 5 2 4 3 1
機能性 5 5 4 3 4
合計点数 23 21 20 18 16


JPEG 2000が、可逆でも不可逆でも、トップであることは注目に値する。


この論文の序章において、マスター・ファイルを長期保存する3つの理由を述べたが、上の表では、その3つを区別しない。一番左の行でタテに並ぶ各項目の中には、その3つの理由とあまり関係ないものもある。以下で提示する推奨は、タテに並ぶ5つの項目の重要性を考慮して作成された。


推奨


理由1:原本の代替として残したいため


マスター・ファイルの長期保存の理由が、原本の代替であるとすると、「長期使用可能性」「正式な規格化」「画質」という項目が最も重要だと考えられる。長期に渡る使用可能性を考えると、可逆のJPEG 2000が一番であり、PNGが僅差で二番となる。ストレージ容量の節約度合い(PNG40%、可逆のJPEG 2000が53%)と機能性が重要だと思われる場合、JPEG 2000に軍配があがる。TIFF+LZWは、ストレージ容量の節約度合いがたった30%であることや、ファイル・フォーマット評価方法でのスコアが低いことから、代替フォーマットとしては適さない。(「評価方法」でスコアが低い原因は、特許に絡んだ問題があるため、ファイル・フォーマットの利用に関する制約、という項目のスコアが低いためである。)


この代替理由が強い場合、不可逆圧縮は、画像情報が欠落して元に戻すことができないため、選択される可能性は低い。


しかし、人間の目には可逆に見える圧縮を利用する、ということも有り得る。その場合の候補は、JPEG 2000 Part1(圧縮率10なので、元の10%の大きさになる)やJPEG(PSD10かそれ以上で、元の11%の大きさになる)となる。人間の目には可逆に見える圧縮というのは、相対的な用語であり、現在のモニター技術水準に依存し、かつ、個々人の主観的判断に寄っていることを理解する必要がある。JPEGファイル・フォーマットの大きな利点は、広く普及していて、かつ、ブラウザーを含め、数多くの対応ソフトが出回っていることである。


理由2:電子化は膨大なコストがかかるので、やり直しが効かないため


マスター・ファイルの長期保存の理由が、電子化作業を2度行いたくない*4、というものであるとすると、「ストレージ容量節約」と「画質」の項目が最も重要だと考えられる。この場合、不可逆圧縮を人間の目には可逆に見える範囲で利用するのが、好ましいと思われる。オリジナルの代替ではないのだから、少しの情報欠落は正当化できる。上述の不可逆のJPEG 2000を利用したり、JPEGを人間の目には可逆に見える範囲で利用したりするというのが、選択としては妥当である。


しかし、情報の欠落を一切許さない、という場合なら、上述の可逆のJPEG 2000やPNGを利用する、というのがあり得る選択肢となる。


理由3:マスター・ファイルはアクセス・ファイルの元になるため


マスター・ファイルの長期保存の理由が、マスター・ファイルをアクセス・ファイルとして使うためである場合、「ストレージ容量節約」と「機能性」という項目が最も重要だと考えられる。この場合、比較的高めの圧縮率で、不可逆圧縮をかける、というのが当然である。ふたつの選択肢があり、不可逆のJPEG 2000を利用するか、または、JPEGを高い圧縮率で利用するか、このどちらかである。JPEG 2000の圧縮技術は進んでいるので、画質を大きく損なうことなく、より高い圧縮率を実現できる。(JPEGより勝る。)圧縮率を決めるとき、素材となる画像のタイプを見極める必要がある。例えば、圧縮によるノイズは、写真などの連続階調のページより、テキスト・ページで目立つ。JPEG 2000は圧縮効率も高いし、豊富なオプション機能がある一方、JPEGはブラウザーを含む多くのソフトで対応していて、かつ広く受け入れられている。そのような状況を踏まえて、JPEG 2000の利点がJPEGの利点を上回るのかどうか、そこを考えなくてはならない。

JPEG2000

*1:「おまけ」とは名ばかりで、もともと独立して発表された論文でね、この論文を理解する上でも、とっても重要な部分なんだよ。でも、そんなことはじめに書いちゃうと、荷が重すぎます、なんて断られちゃうかもしれないと思って、「おまけ」にしてみた。

*2:金城注:大きいほど、圧縮率が高い

*3:標準的な使い方ではないが

*4:金城注:この気持ち、痛いほど分かる