読者です 読者をやめる 読者になる 読者になる

simpleA記

馬にふつまに 負ほせ持て

BBから序章が届く

書籍電子化 JPEG 2000 Alternative File Formats


さて、週末、みんなと一緒に飲んだくれてる間に、カリフォルニアのBBさん(id:Belgian-beer)から、序章の翻訳が届いてまーす。念のため、言っとくと、この論文、

  1. この序章読んで、
  2. 結論(http://d.hatena.ne.jp/simpleA/20080605)読んで
  3. おまけ3(coming soon)読んで、
  4. 最後に、細かいとこ(http://d.hatena.ne.jp/simpleA/20080602http://d.hatena.ne.jp/simpleA/20080603、さらにcoming soon)読んでいこー、

というのが、お勧めよ。





『Alternative File Formats for Storing Master Images of Digitisation Projects』http://www.scribd.com/doc/2388286/Alternative20File20Formats20for20Storing20Masters202201

1 序章 6
1.1 フォーマット選択の影響 7
1.2 マスター・ファイルを長期保存する3つの理由 9
1.3 結論 9
1.4 専門家たちによるチェック 9
1.5 今後の課題 10

1序章


この研究は王立図書館のデジタル化プロジェクトのストレージ戦略を再考するために行われた。デジタル化プロジェクトは量的に増大し続けており、2011年までにはマスターデータのみでさえ4千万の画像と650テラバイトの非圧縮データ保存にのぼると見積もられており、このデータ保存戦略の再考は不可欠である。最も重要な検討課題は、デジタル化プロジェクトのすべてのマスターファイルが長期保存システムに保存されるべきか否か、長期保存のコストはどれくらいか、そして、TIFFファイルフォーマットによる高額、非圧縮、高解像度の長期保存法以外の代替手段は何か、という点である。


本研究はその最後の疑問に着目している。本研究の目的は画像のマスターファイル保存における非圧縮TIFFファイル以外の代替手段を検討することである。


本研究の主要検討項目は、(例えば、古い印刷物、版画、写真や絵画など、)コントラストの低いオリジナルから、デジタル化された画像である。比較的新しく、写真・挿絵などのない印刷物等、コントラストの高い素材から作られた画像は本研究の対象外である。様々な種類の素材を情報価値に照らして分類したり、その価値に見合ったデジタル化品質を選択したり、圧縮は可逆か不可逆か、それとも、全く圧縮しないのか、などの問題も本研究では検討していない。これらの二つの問題は将来の検討課題の一部である。


マスター画像の定義は以下の通りである:オリジナルから複製され、色彩、色調、解像度等において高品質なラスター画像であり、ほとんどの派生ファイルを作成する元になるファイルのことである。


以下の画像は本研究から除外する。
ベクター画像
・ 3D画像
・ 動画
・ 複数レイヤー画像(マルチレゾリューション画像*1とは異なる)
・ 多数ページのファイル(PDFやtiff などによるもの)
・ マルチスペクトル画像、ハイパースペクトル画像 *2


以下の4種類の圧縮フォーマットないしファイルフォーマットを検討する。

  1. JPEG 2000 part 1 (可逆、非可逆の両方)*3
  2. PNG1.2
  3. Basic JFIF 1.02 (JPEG)
  4. LZW圧縮のTIFF


マスターファイルの代替手段として以下の条件により、上記の4種類のフォーマットを選択した。
・ ソフトウェアサポート(Windows Media Photo/JPEG XR や JPEG-LS などのように、新しすぎたり、ほとんど使用されなかったりするフォーマットは検討から除外した)
・ 十分なビット深度:最低でも8ビットグレイスケールまたは24ビットカラー(二値画像、1ビット画像、TIFF G4/JBIGは検討より除外*4。 GIF も8ビットであること、 限られた色調パレットなどにより同様に除外)
・ 可逆または最高質非可逆圧縮フォーマットである可能性(BMPは除外)


可逆ZIP圧縮したTIFFファイルは時間的制限により除外したが、次回の研究の検討課題に加える必要がある。



1.1 フォーマット選択の影響



上述の4種類のフォーマットの影響をそれぞれのセクションで述べていく。各フォーマットの要約とそのフォーマットがどのように機能するのかに触れた後に、各フォーマットについて、以下の4つに分けて、その影響を検討する。

  1. 必要となるストレージ容量に対するフォーマット選択の影響
  2. 画質に対するフォーマット選択の影響
  3. 長期的な使用可能性に対するフォーマット選択の影響
  4. 機能性に対するフォーマット選択の影響


検討1:この項ではフォーマット選択が画像のストレージに与える影響について概説する。圧縮と非圧縮TIFFファイル間のファイル容量の違いを割合で比較した。必要な場合、可逆・不可逆圧縮間の違いも検討した。以下に記す条件下で、おおよそ100枚の画像を2種類用意して、違いを計算した。

  • 24ビット、RGBファイルのみを使用
  • 低コントラスト文章書類と写真の2種類のオリジナルを使用


王立図書館のファイルの大部分は、これまで、低コントラスト素材のものが、24ビットRGBファイルとして用いられてきたためであり、おそらく将来も変わらないであろうことから、これらの条件とした。当然のことながら、より高い(もしくはより低い)ビット深度のものや、圧縮率に違いが出るのであろう高コントラストな素料(最新の印刷物)などは、将来再検討する際に考慮されねばならい課題である。


結果は補足4に記す。


検討2:この項では、非圧縮マスターファイルとの質の違いを、様々な方法(PSNR*5 やMTF法*6など)により定量化する。


以下の試験標板やツールを用いて画像の質的低下の可能性を決定した。

  • ディーテールのロスは、QA62テストチャートにより測定した。
  • グレイスケールのロスは、コダック社のグレイスケール・チャートにより測定した。
  • カラーのロスは、 マクベス社のColorChecker により測定した。
  • デジタル化によるアーチファクトは肉眼検査により決定した。

検討3:この項では最近王立図書館のために Judith Rog, Caroline van Wijk, Jefferey van der Hoeven らにより開発された定量的ファイルフォーマットリスク評価法を用いる。この方法を使用することにより、以下の広く受け入れられた7種類の判断基準をもとに測定することが出来る。

  1. 開放性
  2. 採択性
  3. 複雑性
  4. 技術的保護機構
  5. 自己文書化
  6. エラー強さ
  7. 依存性


この方法では、それぞれのファイルフォーマットの長期使用性にスコアを付ける。これらの7つの主基準は測定可能なさらに下位の基準に分割することができる。例えば、主基準である「開放性」は「標準化」、「ファイルフォーマット解釈の制限」そして、「無料で手に入るソースを持つリーダー」という下位基準に分割される。それぞれのフォーマットは0から2までのスコアをそれぞれの下位基準に付けられる。この方法はいかにスコアが決定されるかを細かく定義する。例えば、あるフォーマットは「標準化」という下位基準において、もし「公式な標準」となっていれば最大値2を、「事実上の標準」であれば1.5 を、というように0までスコア付けされるのだ。最終的に、スコアはそれぞれの主基準または特性の評価値とかけ合わせられる。それぞれの基準やそれに含まれる特性に与えられた評価値は固定されておらず、それぞれの施設特有のポリシーに依存する。ある施設がその特性を無視したいと考えれば、評価値0を与えることができる。本研究では王立図書館におけるポリシー、デジタル保存文献そして一般常識をもとに設定した評価値を使用している。例えば、「開放性」の下位基準である「標準化」、「ファイルフォーマット解釈の制限」そして、「無料で手に入るソースを持つリーダー」はそれぞれ9,9,7という評価値が与えられている一方、主基準である「自己文書化」のすべての下位特性、それはメタデータをファイルに付与するオプションも含む、の評価値は1である。王立図書館ではファイルに埋め込まれたメタデータは使用しない予定である。これがこの基準の評価値が相対的に低い理由であるが、他の施設では違う場合もありうる。この方法により、最終的に個々のファイルは0から100までの長期使用性に関するスコアを付けられる。スコアが高いほど、そのフォーマットは長期保存と使用に適していると判断する。


補足2に本レポートで検討したフォーマット検討の解釈が述べられている。補足3ではその方法を説明する。本研究において検討したすべてのフォーマットにおいて、「ファイル破壊検出のサポート」のスコアは0とした。なぜなら、我々はそれを検討する時間と専門技術を有さないからである。PNGフォーマットは、ある程度、ファイルヘッダー内で破壊検出をしうることに気がついていたが、時間的制限により他のフォーマットがこの機能を持つか、また、仮に持つとしてそれはどの程度なのかを検討することはなかった。すべてのフォーマットに同じ評価値を付けたため、相対的な最終スコアに影響を与えない。


本検討法はつい最近樹立された方法であり、他の関係協力機関のフィードバックは得られていない。したがって、最終的な代替フォーマット選定は定量的ファイルフォーマットリスク評価法のみによってなされたものではなく、関連する他の情報や経験などによっても検証された.



検討4:この項では機能性に対するフォーマット選択の影響を概説する。本章では以下の疑問を扱う。

  • そのファイルフォーマットは高解像度のアクセスファイルとして適しているか?
  • 目録的、技術的 (EXIF) メタデータを含めることは可能か?
  • 米国議会図書館によるファイルフォーマットの質と機能に関する基準は以下の項目に従うか?正常表示、明瞭さ(カラースペースサポート、ビット深度の可能性)、色調の維持(ガンマ補正とICCカラープロファイル)、グラフィック効果とタイポグラフィーのサポート(トランスパレンシー情報が保存されるアルファチャンネル)、およびこれまでの再現性を越えた機能性(アニメーション、複数ページ、マルチリソリューションサポート)*7

1.2 マスターファイル長期保存法の3つの選択基準


上述のように、マスターファイルはオリジナル由来の高品質コピーであり、それから作成したコピーがほとんどの場合閲覧に使用される。二次コピー作成後にマスターファイルが削除される場合があり、さらに別の要求度の高い使用方法が必要とされる時にはオリジナルからのデジタル化が再度施行されなければならない。


王立図書館では長期、さらには無期限の、マスターファイル保存の必要性に3つの理由をあげている。


1. オリジナルの代用が必要であるから(オリジナルは劣化しやすく、また、マイクロフィルムのような高品質の代替手段が使用できない)
2. デジタル化は非常にコストと時間がかかり、再デジタル化は非現実的であるから
3. マスターファイルは、アクセスファイルの元になるからであり、また時には、マスターファイルをそのままアクセスファイルとして使う場合もあるから


これらの3つの理由が代替ファイルフォーマットを推薦する大きな理由である。



1.3 結論


3種類のファイルフォーマット検討結果に対する結論を述べ、すべての解析に関して議論した後にそれぞれのフォーマットを比較することで全体の総括を提示する。上述の長期保存のための理由もここに含まれる。



1.4 専門家たちによるチェック


国内、国外のデジタルファイル保存、ファイルフォーマットやファイル管理に関する専門家たちに、本研究の厳格なチェックをお願いし、必要である部分にはコメントをもらった。彼らのアドバイスは本レポートに取り入れてある。チェックをお願いした専門家は以下の方々である:

  • Stephen Abrams (Harvard University Library/University of California-California Digital Library )
  • Caroline Arms (Library of Congress, US)
  • Martijn van den Broek (Nederlands Fotomuseum [Netherlands Photo Museum], the Netherlands)
  • Adrian Brown (National Archives, UK)
  • Robert R. Buckley (Xerox Corporation)
  • Aly Conteh (British Library)
  • Carl Fleischhauer (Library of Congress)
  • Rose Holley (National Library of Australia)
  • Marc Holtman (City Archive of Amsterdam)
  • Rene van Horik (DANS, the Netherlands)
  • Dr. Klaus Jung (Luratech Imaging GmbH)
  • Ulla B¿gvad Kejser (Kongelige Bibliotek Denmark)
  • Rory McLeod (British Library)
  • Andrew Stawowczyk Long (National Library of Australia)
  • Boudewijn de Ridder (Nederlands Fotomuseum [Netherlands Photo Museum], the Netherlands)
  • Brian Thurgood (Libraries and Archives of Canada)
  • Thomas Zellmann (LuraTech Europe GmbH)


我々は彼らの非常に有益なフィードバックに感謝する。それらにより本レポートは格段に改良された。 我々が受け取ったフィードバックは想像を超えるものであった。また、それによりこの調査を行うに至った問題の直接の原因は他の多くの機関においても関連していることが示された。



1.5 今後の課題


我々は多くのフィードバックを受け、このままでは本レポートは完成とは到底いえないものであることが確認できた。本レポートで取り上げた課題をさらに広く深く研究し、問題を解決するためには数ヶ月以上の歳月を必要であることは間違いない。しかし、残念なことに我々にはそれを行うための時間がない。


以下に将来の検討課題をあげる。

  • 情報価値に立脚した様々なオリジナルの分類、より適したデジタル化法の選択、そして、最終的には、可逆圧縮不可逆圧縮もしくは、圧縮なしかの選択。
  • さらなる圧縮法のテストには以下のものがある
     ○高コントラストのテキストページ
     ○16ビットファイル
     ○グレイスケールファイル
     ○JPEG2000とPNGが使える代替圧縮ソフト
     ○PSNR (Peak Signal to Noise Ratio)
     ○JPEG ファイルの構造
     ○LZW圧縮の機能
     ○本研究で用いた"ファイルフォーマット評価法"のさらなる研究。上述の専門家達からのフィードバックにもとづき、我々はすでにこの方法を調整、改善したが、今後も不断の努力が必要である。


我々は本研究やそれから派生するすべての問題に関するコメントを広く受け付けている。

JPEG2000

*1:例えば、Photoshopの.psd または TIFFの複数レイヤーファイル

*2:王立図書館では、これまでマルチスペクトル画像を真剣に検討してこなかった。しかし、将来、どうするのかまだ分からない。少なくとも現時点において、マルチスペクトル画像は関係ない。

*3:JPEG2000 の代替ファイルとしての検討はかなり詳しく行われている。Judith Rog: 『Note regarding JPEG 2000 for the RL』, version 2.0 (2007 年8月

*4:二値画像が実際にマスターファイル候補から外れるかどうかはまだ分からない。比較的新しく、写真・挿絵などのない素材を扱うようなプロジェクトでは、「明るさ」情報がなくても良いかもしれない。

*5:画像の信号と混入したノイズとの比率で、通常は dB で表す。http://d.hatena.ne.jp/keyword/PSNR

*6:MTFは光学システムの再現性に関する測定方法である。1ミリメートルに、何本の線(または何サイクル)を識別できるか、という表示方法である。

*7:『Sustainability of Digital Formats』http://www.digitalpreservation.gov/formats/content/still_quality.shtml