simpleA記

馬にふつまに 負ほせ持て

sergejOさんより、おまけ3届く


この部分、「おまけ」とは言え、とーっても重要だよ。もともと、別論文として発表されてたもんが、おまけとして収録されてんの。この論文を世に送り出したオランダ王立図書館の切なる願いってのがあって、

With this paper, the KB hopes to inspire other cultural heritage institutions to define their own quantifiable file format evaluation method.


各国のみんなが、うちらも独自のファイル・フォーマットの定量的評価方法をつくってみよーってなことになるとうれしーよ

ってこと。

id:sergejOさんから届いた訳






『Alternative File Formats for Storing Master Images of Digitisation Projects』http://www.scribd.com/doc/2388286/Alternative20File20Formats20for20Storing20Masters202201

おまけ3 ファイル・フォーマットの評価方法(解説) 50

おまけ3 ファイル・フォーマットの評価方法 - 解説


ファイル・フォーマットの評価方法を取り上げている以下の論文は、IPRES Conference 2007 (http://ipres.las.ac.cn/)に於いて、幾分異なる形で報告済みだが、まだ公式発表はされてはいない。この評価方法を試した経験を重ね、また、第三者からのフィードバックを受けて、項目と特性の定義は幾分改訂されている。


長期保存に適するファイル・フォーマットの評価
Judith Rog, Caroline van Wijk National Library of the Netherlands; The Hague, The Netherlands judith.rog@kb.nl, caroline.vanwijk@kb.nl


国内外の出版社は、2003年以降、オランダ王立図書館(略号KB)に電子刊行物をデポジットしている。最近まで、これらの文書はポータブル・ドキュメント・フォーマット(PDF形式)で保存投稿されてきた。しかしながら、例えばウェブ保存プロジェクトといった新規プロジェクトにより、王立図書館はさらなる多様な素材の取扱いを余儀なくされている。それ故、王立図書館はファイル・フォーマットの定量的リスク査定方法の検討を重ねて来た。この方法は、個々のファイル・フォーマットに関し、電子化保存の戦略を決定するために用いることができる。電子文書の生成時ないしはその後の段階で、どのようなファイル・フォーマットを選ぶかによって、その文書の長期的な利用可能性に影響がでてくる。この評価方法は、ファイル・フォーマットに関する七つの使用可能性項目からなり、それらの項目は重要性を鑑みて重み付けがなされている。使用可能性項目そのものについては、世の中で意見が一致しているように見える。しかし、各項目の重み付けは、王立図書館という一機関の方針に従っている為、項目の相対的重要度(訳者注:重み付けのこと)に関して他の諸機関の合意を得られるものか、王立図書館は懸念を持っている。この論文が、他の文化物保存機関に於いて、それぞれ独自の定量的なファイル・フォーマット評価方法を策定させる刺激となることを王立図書館は切に願っている。


はじめに


10年以上の間、王立図書館は電子刊行物の保存に関わってきた。エルセフィエル・サイエンスおよびクルウェル・アカデミックというオランダ発の国際的出版社二社と初めて契約を交わしたのは1996年のことである。それは彼らが発行する電子ジャーナルの長期保存に関する契約であった。e-Depotの対象は、2002年、全ての国際的な科学刊行物に広げられることとなった。e-Depotとは、王立図書館がこれらのジャーナルの長期保管および保存の為に使用している電子書庫のことで、2003年に運用が始まっている(National Library of the Netherlands, 2007a参照)。現在、e-Depotは1000万点以上の世界の電子出版物を保管している。これまでe-Depotに納められた刊行物の大半は電子ジャーナルの記事である。一部を除いて、使用されたファイル・フォーマットは、ポータブル・ドキュメント・フォーマット(PDF形式)であり、PDFの種類としてはversion 1.0から1.6の範囲内だった。しかし今や、e-Depotの保存対象は拡大され、現在e-Depotに取り込み中の電子化刊行物を除いても、今後の五年間にweb archiving (Digital Preservation Department KB, 2007b)、DARE (Digital Preservation Department KB, 2007c)、national e-Depot (KB, 2007d) その他の電子化プロジェクト(KB, 2007e)のデータが新たにe-Depotに統合される。これらの電子化プロジェクトのコンテンツは、ファイル・フォーマットに関しては実に多岐に亘っている。出版社が提供する”伝統的な”電子刊行物でさえ、段々と種類が増している。記事には、調査内容を説明するマルチメディア・ファイルやらデータベースが添付されることもある。


このような従来よりも多様なコンテンツが、王立図書館をして、電子化保存戦略の再考をなさしめたのである。戦略の根幹には、王立図書館が常に「元の形」を保持すべしという基本思想がある。刊行物を保存し、将来も利用可能たらしめる為に、王立図書館がなすべきこと(例 マイグレーションやエミュレーションなど)を、電子化保存戦略は説いている。また、生成時、取り込み時、そして、それ以降の段階において、どのファイル・フォーマットを選択するのかについても、電子化保存戦略で説明がなされていて、これは各段階におけるファイル・フォーマットの選択がファイルの使用可能性に影響するが故である。現行の戦略では、主にPDFファイルの保存に焦点が当てられているが、今後は、もっと多くのフォーマットを考慮することが必要となる。保存が必要なのか、そして、どんな保存方法が必要なのかは、諸々の事柄の中でも、刊行物のファイル・フォーマットの長期的使用可能性に依っている。さて、ファイル・フォーマットが長期保存に向いているか否かは、どのような要素で決まるのだろうか?ファイル・フォーマットの評価項目について論じた者は今までにも幾人も居る(Folk & Barkstrom, 2002;, Christensen, 2004; ,Brown, 2003; ,Arms & Fleischhauer, 2005; ,Library of Congress, 2007を参照)。しかし、それらの項目が実際のファイル・フォーマットの評価に用いられたことは殆どない (Anderson, Frost, Hoebelheinrich & Johnson, 2005を参照)。使用可能性項目を適用するに当たって、それらの項目が全て同程度に重要なのか、それとも各項目の間に軽重があるのかを知る必要がある。では、それをどう測定するのか?また、ファイル・フォーマットは各項目に関して、どれくらい満たしているものなのか?ファイル・フォーマットを比較検討できるように、そして、長期保存に適したファイル・フォーマットの選択に当たり、より洞察を与えられるように、各項目は定量化して用いられるべきである。


王立図書館は、そういったファイル・フォーマットの定量的リスク評価の策定をはじめている。ファイル・フォーマットのリスク評価は、長期保存に適したファイル・フォーマットの選定を容易にする。この論文が説明するのは、王立図書館が開発したファイル・フォーマットの評価方法について、そして、それが王立図書館の長期保存化戦略に於いて如何に実地に用いられたかについてである。王立図書館は、このように自らのファイル・フォーマット評価方法を発表することで、電子保存を行う皆々と、使用可能性項目とその重要性について議論を始めたいと考えている。


長期保存に適するファイル・フォーマットを評価する為に


方法論・手順


王立図書館の方法で採用している保存に関する一般項目は、前述の文献に依っている。Arms & Fleischhauerの論文(2005)に述べられている通り、通常のレンダリング作業での必要を超える鮮明度や機能性などの質的・機能的な項目は、王立図書館の評価方法では考慮されていない。王立図書館が保管している刊行物は完成物であって、例えば、刊行後の機能的な変更などは必要でない。また、王立図書館は、長期保存のために刊行物を保管するのであって、それらの配布を主目的とはしていない。刊行物への日頃のアクセスやそれらの配布は、出版社のウェブサイトや大学のレポジトリなどを通じて行われている。これらは、王立図書館の極めて特殊な事情であろうし、リスク評価方法に、使用可能性項目のみを取り上げていることの理由にもなる。では次より、各項目、各項目の重み付け、そしてこの方法の適用例について述べていこう。


電子保存の観点から見たファイル・フォーマットの適合性は、これらの項目を判断の基礎として等級付けされる。各項目は以下に説明する通りである。各項目は計量可能なスタンダードとなっており、それらによってファイル・フォーマット適・不適を決めることができる。各項目は、全てのファイル・フォーマットが持っている各種の特性に細分され、それぞれの特性毎に点が付けられる。それぞれのファイル・フォーマットで、点は異なる。使用可能性項目と特性には重み付けがなされている。なぜなら、王立図書館は、それぞれの特性が、電子保存計画のために等しく重要だとは考えていないからである。項目および特性に与えられた重み付けは、確定されたものではない。その重み付けは、それぞれの機関の独自方針に沿ったものとなる。この論文に挙げられた例に用いられている重み付けは、王立図書館の独自方針、一般的な電子化保存に関する文献、そして、一般常識に沿って、王立図書館が定めたものである。特性に付される重み付けの値は、範囲が決まっている。


重み付けの値をゼロから7としたのは、恣意的な取り決めである。重み付け7は、電子化保存の見地から最も重要な項目に与えられ、重み付けゼロはもっとも瑣末な項目に与えられる。特性毎に付けらる得点はゼロから2まで。電子化保存と長期的使用性に関して、もっとも恐れありと見られる特性には最低点ゼロが付けられる。電子化保存と長期的使用性に関して、もっとも重要と見られる特性には最高点2が付けられる。ゼロから2までとしたのも恣意的な取り決めだ。各項目は、それぞれ同じ数の特性を持っているわけではない。それ故、全ての特性の得点の合計は、特性の数で除算することで、正規化される。


このファイル・フォーマット評価方法をそれぞれのファイル・フォーマットに実施することで、各々のファイル・フォーマットの長期保存適合性を表す得点がゼロから100の幅で付けられる。その得点が高いほどに、より長期保存に適したファイル・フォーマットということになる。時が経つに連れて、得点結果はさまざまに変わることだろう。採用度といった項目は、そのフォーマットが普及したり、古くなったりするために、時と共に、非常に変化を被りやすい。


項目について


王立図書館の評価方法で使用されている項目は、開放性、採用度、複雑性、技術的保護のメカニズム(DRM)、セルフドキュメンテーション、ロバスト性と従属性である。


開放性(オープン性)


ファイル・フォーマットの開放性という項目は、標準化の度合い、ファイル・フォーマットのinterpretationに関する制限、そして、無料で入手可能なリーダーの有無という特性に分かれている。これらの特性は、ファイル・フォーマットの構造について知識を得ることが容易か否かを示している。ファイル・フォーマットに関する知見があれば、電子化保存計画を成功させる確率を増やすことができる。


採用度


採用度という項目は、保管のためのフォーマットとしての国際的な使用状況および文化物保存の分野での使用状況、という二つの特性からなる。これらの特性はファイル・フォーマットの普及度合いと偏在性を示す。もし、とあるファイル・フォーマットの使用状況がクリティカル・マスに至っているならば、ソフトウェアの開発者らは(商業であろうと、非商業であろうと)、リーダー・ソフトや編集ソフトなどのファイル・フォーマット用ソフトウェアの開発といったサポートを続けるインセンティヴを持つ。とは言え、文化物保護機関の立場としては、一般的な普及の度合いだけを考慮することが重要とは言えず、むしろそれ以上に大事なことは、長期的に文献を保存しようという同じ目的を持っている他の文化物保護機関が使用しているか否かなのである。


複雑さ


複雑さの項目は、(いざという時)人間でも解読可能かどうか、圧縮率、機能の多様性という特性に分かれている。これらの特性は、デコーダにとって、そのファイル・フォーマットの扱いがどれほど難しいかを示している。あるフォーマットのデコーディングに大変手間が掛かって、完全に再表出できないことがあるならば、そのフォーマットは電子化保存と長期的使用性に関して、危ういものとなる。


技術的保護のメカニズム(DRM)


技術的保護のメカニズムという項目は、パスワード保護、コピー制御、デジタル署名、印刷保護、コピペ制御の特性からなっている。これらの特性は、(広い意味で)コンテンツへのアクセスを制限できるかどうかについて、ファイル・フォーマットが有する可能性を示している。コンテンツへのアクセス制限は、電子化文献へのアクセスを(永年)確保するために、電子化保存戦略のうち、マイグレーションが必要となった際に、問題となるだろう。


セルフ・ドキュメンテーション


セルフ・ドキュメンテーションの項目は、メタデータ、および、フォーマットの技術的仕様の埋め込みという特性に分けられる。これらの特性は、そのフォーマットが、メタデータの追記を可能たらしめるか否かを示している。メタデータは、文献に関するものか、フォーマットに関するものか、どちらかである。例えば、とあるフォーマットが、(著者名、概要などの)文献の個別情報を追記できるならば、あるいは、各フォーマットの読み方に関するフォーマット特有情報をヘッダーに入れることができるならば、そのフォーマットは、他のソースに当たる必要なく情報保存できる。それぞれの電子文献について情報が多いほど、それらの文献は将来に於いてもよりよく理解される。


ロバスト性


ロバスト性という項目は、特定の支障に対する堅牢性、および、ファイル破損の検出機能をサポートしているか、ファイル・フォーマットの安定性、前方互換性・後方互換性という特性に分かれている。これらの特性は、時に連れ、フォーマットがどれほど改訂・修正されるか、また、世代交代する度に、フォーマットはどれほど変わったものになるのかを指し示している。また、この項目から、ファイル・フォーマットが、ファイル破損からどのように保護されているのかの情報も得られる。頻繁にフォーマットが変わるのならば、長期的にアクセス可能とするための継続性が覚束ない。同様に、ファイル・フォーマットの世代間で違いが甚だしい場合も、この継続性が危うくなる。ファイル・フォーマットの安定性の得点を決める「新しいバージョンのリリースが殆どない」「新しいバージョンのリリースが幾らかある」「新しいバージョンのリリースがしばしばある」の三つ特性は、それぞれ「リリースが10年に一度」、「リリースが5年に一度」、「リリースは年に一回」に対応している。


独立性


この独立性の項目は、特定のハードウェアに依存するか、特定のOSに依存するか、特定のリーダーに依存するか、そして、その他諸々の外部リソースに依存するかという特性に分けられる。これらの特性は、特定の環境なり,フォントやコーデックなどの他のリソースへの、依存の度合いを示している。特定の環境や外部リソースへの依存度が高い場合、電子保存並びに長期的なアクセスの可能性にとってはリスクとなる。年月とともに、外部リソースが無くなることもあろうし、外部リソースが維持されることも難しいだろう、特定環境に高く依存するということは、フォーマットを扱える場所や空間が限られることにつながる。


項目一覧表、王立図書館で採択した重み付け、それぞれの項目とその得点については、Appendix Iを参照のこと。MSワード97 2003年版とPDF/A-1に対して実施されたファイル・フォーマット評価方法の参考例は、Appendix IIに記載されている。


ファイル・フォーマット評価の適用について


王立図書館は、e-Depotのコンテンツに関する電子化保存方針を策定済みである。この方針は、e-Depotに納められる電子文献の電子化保存戦略にとっての最初の一歩である。電子化保存戦略は、電子文献が生成された時から始まり、後々における文献保存のための活動事項をも規定するものだ。王立図書館は、保管に用いるファイル・フォーマットを限定しない。汎用のいかなるフォーマットであろうと受け付ける。しかし、王立図書館は推奨の意見を述べ、ファイル・フォーマット評価方法を戦略決定に使う。


この10年の間、王立図書館では多くの電子化プロジェクトが実行された。電子化に関する諸ガイドラインの策定も、これらのプロジェクトの一部に入っている。これらのガイドラインは、画質に関する特定の要件を確実に満たすようにさせるだけのものではない。特定のファイル・フォーマットの使用法や圧縮(非圧縮ないしは可逆圧縮)の方法などの技術事項やメタデータについて、電子化保存部が設定した要件を、生成されたマスター・ファイルが確実に満たせるようにするのも、それらのガイドラインなのである。電子文献の生成時にどのファイル・フォーマットにするのか十分に検討した上で選択するには、ファイル・フォーマットの評価方法が重要となる。


電子化されたマスター・ファイルの所有者として、王立図書館はマスター・ファイルの生成過程に多大な影響を及ぼして来た。しかし、国際的な出版社がデポジットしてきた、ないしは、これからデポジットするであろう何百万もの電子化刊行物に関しては、そうとは言えない。王立図書館は種々の技術協定を含むデポジット契約を結んでいるのだ(例えば、刊行物の提供の際に、出版社が用いるべきファイル・フォーマットなどについて)。また、多くの出版社がPDF形式でデポジットしている為、PDF形式での刊行物生成に関するガイドライン(Rog 2007 参照)も作成した。そのPDF形式に関するガイドラインは、標準的な保管形式であるPDF/Aに関するものであるが、非技術者にも読みやすくなっている。そのガイドラインには、生成作業のベスト・プラクティスを説明する、PDF形式の機能の10のルールも含まれている。


前述した通り、従来、所蔵刊行物はファイル・フォーマットに関しては単一のものであった。殆どの刊行物は、バージョン1.0から1.6までのPDF形式でデポジットされて来た。これまで、ファイル・フォーマット評価方法は、このPDFという主流フォーマットが、電子化保存に適しているかを評価する為に用いられて来た。しかし、幾つかの新規プロジェクトによって、書庫の電子コンテンツは近いうちに多様なものとなる。これが為に、もっと工夫されたファイル・フォーマット評価が必要とされるのだ。


e-Depotの新しいコンテンツに対するファイル・フォーマット評価の適用事例には、DAREプロジェクトに用いられたフォーマット評価が挙げられる。DAREの所蔵文献は、オランダ大学のレポジトリといった科学系のレポジトリから取り込まれたものである。その殆どの文献はPDF形式で取り込まれたが、わずかの文献については、MSワード、MSパワーポイントといったMSオフィスの書類フォーマットおよび、ワードパーフェクト・フォーマットで取り込まれた。王立図書館がファイル・フォーマットのリスク評価を実施した結果、MSオフィスおよびワードパーフェクトの書類を、標準の保管形式であるPDF/Aに変換するとの決定が下された。その評価方法では、MSワード書類の得点は22/100点。PDF/Aは89/100点であった。フォーマット間の得点の差は、開放性、採用度、そして、独立性の三項目に大きく見られた。これらの三項目において、MSワードはPDF/A-1に比してかなり低い得点となっている。保存方針に則って、オリジナルのファイルも変換後のファイルも共に長期保存用にレポジトリに納められている。


大変興味深いことに、王立電子化保存連合(略号NCDD)に王立図書館と共に参加しているとある機関は、PDF/Aが電子データを長期保存するには適さないフォーマットと考えていた。彼らはPDF/Aを使用せずとする真っ当な論拠の一つとして、PDF/Aには、データシートと同じ編集機能がないことを挙げている。使用可能性項目とその各項目の重み付けに関する、各文化物保存機関の違いを比較するのは、大変興味深いものだろう。もし各機関が各々のファイル・フォーマット評価を定量的なものとするならば、比較も随分容易となる。


ファイル・フォーマットのリスク評価を適用するに当たり、ウェブ情報保管プロジェクトは、近い将来に大きな問題となるだろう。ウェブサイトには非常に様々なファイル・フォーマットが含まれるものであるし、この新しいコンテンツによって、e-Depotは現在のものとは大きく異なる保存戦略および保存計画を持つ必要に迫られる。


結果および今後の議論


この論文は、長期保存に関して、ファイル・フォーマットの適性を評価する為に、王立図書館が策定したファイル・フォーマット評価方法について論じている。適性は定量化して算出され、その結果は、フォーマットの長期保存適合性を表すゼロ点から100点までの幅の得点となって出てくる。こうして、それぞれのフォーマットを比較させることが容易となる。評価する項目も、特性も、また各フォーマットに付けられた得点も一目瞭然である。


長期保存に最も適するフォーマットを決定する為に、各種フォーマットの間に序列をつけねばならない他の機関から、この論文で説明した方法についてフィードバックが寄せられることを王立図書館は希望している。使用可能性の項目に付いては他の機関にも異論はないように見える。しかしながら、王立図書館はこれらの項目が正しいものかどうか知りたいのであり、また、各特性毎にフォーマットに付けられる得点によって、実用的な選択がなされうるものかどうかも知りたく思っている。各項目に与えられた重み付けは、ここで説明した方法では、固定されてはいない。それぞれの機関の独自の方針に沿って、重み付けは変更可能である。それ故、王立図書館は、他の文化物保存機関とファイル・フォーマットの定量的リスク評価について議論の場を持ちたいし、また、できれば他の機関のそれと比較なども行いたいと考えている。


(リファレンスは訳さない)


著者経歴


カロリーネ・ファン・ワイク Caroline van Wijk (1973生)は、文学士号および政治学の修士号を有する。2000年にはJavaエンジニアの訓練を終了。その後、2004年に王立図書館に勤務するまで四年の間、幾つかのウェブ開発企業に勤務。王立図書館では、2005年12月まで、Tiffファイル保管庫の試験計画に技術スタッフとして従事。2006年以降、ファイル・マイグレーション推進計画に指導的立場にあり、また、ヨーロッパで推進されているプラネッツ(Planets)というプロジェクトに、電子保存研究員およびワークパッケージ(訳者注:work packageとは、言ってみればプロジェクトで様々作られる小チームのこと)のリーダーとして参加。


ユーディット・ログ Judith Rog(1976生)は、音声学とスピーチ技術の修士号を1999年に取得。オランダの辞書出版社に言語技術者として勤務した後、2001年、王立図書館に転職。四年間、IT部に籍を置いた後、2005年より電子化保存部に所属。電子化保存部において、ファイル・フォーマットのリサーチを主要業務として、各種プロジェクトに参加。

JPEG2000