simpleA記

馬にふつまに 負ほせ持て

ハーバードが選んだ代表的ページたち





http://preserve.harvard.edu/massdig/hul_study/index.htmlより


これは、アメリカの名門ハーバード大学

The digitized pages in this suite were selected to represent a segment (but not the full range) of page characteristics for volumes published in the 19th and 20th centuries.

ってなわけで、「これが全てだってわけじゃーないけどね、19世紀と20世紀のページレイアウトってもんの特徴を代表してるもんを選らんでみたよ」ってな感じで、公開している4カテゴリ*1に分けた9つの画像。


最近、三上さん(id:elmikamino)とこで、ページレイアウトの話が展開されてんだけど、見た*2?すごーいよね。三上さんの探求に、地獄の果てまでついていこー、って心に決めて、今、必死に三上さんの足につかまってる状態。でも、こーいう時の定石は、「先方の探求を、きちんと、自分の関心事に引き込みつつ」(いわゆる「コバンザメ作戦」)ってことだよね。さもないと、先方に失礼だしね。


さて、そもそも、なんでハーバード大学は、こんな9枚の画像を公開しているのか?


その理由を知ると、アメリカでの書籍電子化がどんだけ進んでいるのか、ってことが少し分かる。と同時に、日本がどんくらーい立ち遅れてんのか、ってのも少し分かるかもしんなーい。(あなたの感性しだい)


背景を超シンプルに説明すると、

アメリカにおいて、書籍電子化はズンドコ進む。


当然、ストレージとネットワークに負担がかかる。


かといって、むやみに圧縮すればいいってもんでもない。見づらくなる。


じゃぁ、みんなで、ファイルサイズと「見やすさ」のバランスについて、語りましょ。


とりあえず、御題として、この4カテゴリに分けた9枚について、熱く論じましょ。


さぁ、http://preserve.harvard.edu/massdig/hul_study/IST_PageImageCompression_preprint.pdfを読もー!


挑戦待ってるぜぃ。

ってなこと。


つまり、アメリカでは、「ストレージとネットワークに負担がかかる」とこまで、電子化が進んでるわけ。一方、日本では、何がボトルネックっかって言うと、ずばり「著作権」。「著作権」がボトルネックってことは、まだ何もスキャン始めてませーーんってことだよ!「著作権」闘争を抜けた(またはすっ飛ばした)後、実は2〜3個の障害が待ち構えてて、そんでやっと、「いやー参った、ストレージとネットワークに負担がかかってんだよね」ってなセリフを吐ける境地へたどり着く。ということは、今現在、日本は、少なくとも、2歩遅れてんだよ。しかも、かなり大股の2歩。


まぁ、そんな今更なことはさておき、ここで言いたい大事なことは、大規模な書籍電子化ってのは、確率論の世界ってこと。三上さんが扱ってる「ページデザインの世界」ってのは、個々のページってのが、とっても大切なわけ。でも、書籍電子化にとって重要なのは、平均値だったり、「代表的なもん」だったり、「想定」だったりする。


たとえば、書籍電子化業界では、1冊いくらって価格付けであって、1冊のページ数なんてどーでもいい*3。おおよそ平均300ページくらいでしょ、ってな感じで、あとは誤差。


同じ感じで、ページレイアウトなんて、たーっくさんのパターンあんのは分かってるけど、あえて、代表的なもんを挙げるとすると、例のハーバードの4カテゴリーで9つくらいを考えておけば、いいんでないの?ってのは、まぁ許容範囲なわけ。


ってなわけで、結局何が言いたいのかって言うと、「書籍電子化にとって、ページレイアウトってのはとーっても、とーっても気になるところだよ。だって、スキャン後の作業(とくにファイルサイズ圧縮とOCR)に甚大な影響与えるから。でも、それはあくまで確率論的に扱われる対象なーんだよ」ってこと。


これから、何回か、このあたりを分け入りまーす。

*1:テキストのみ、白黒イメージ、テキスト+白黒イラスト、カラーイメージの4カテ

*2:http://d.hatena.ne.jp/elmikamino/20080321だとか、http://d.hatena.ne.jp/elmikamino/searchdiary?word=%2a%5b%a5%c7%a5%b6%a5%a4%a5%f3%5dの一連のエントリ

*3:もちろん、正確に言うと違うけど、おおらかな気持ちで理解してね