simpleA記

馬にふつまに 負ほせ持て

電子化プロジェクトの段階


何事もそーだろーけど、がむしゃらに進む段階を一度経験すると、賢くなる。賢くなると、工夫が生まれ、新たな段階に突入する。その繰り返し。


世界規模で進行中の新聞電子化プロジェクトも、今年の始めくらいから、第2段階に入った。そして、そろそろ、第3段階へ突入するかなー、しないかなー。いきなり第3段階の話しても、よー分からんだろーから、今日は、第1>第2の話しましょ。


比較的大規模な電子化プロジェクトが直面する問題の一つに、「ページ抜け」ってのがある*1。聞いてそのまんま。「○○ページが抜けてんよー」ってこと。「ページ抜け」の親戚として、「重複ページ」「ピンぼけ」「手が写ってる」「ページ折れてるよ」「これって葉っぱ?」「ぼよーん」などなど。全体の1%くらいは、「ページ抜け」ファミリーの被害にあってると思ってね。


そんで、電子化プロジェクトの第1段階ってのは、

どうやってスキャンすれば、「ページ抜け」をゼロに近づけるか?

ってことに頭を悩ますわけ。


ズンドコ電子化していき、各種「ページ抜け」対策との格闘の末、悟るわけ。

「ページ抜け」ってのは、自然現象よねー。人智で、どーにか、なるもん、じゃなーいわよ。


これを悟ると、第2段階へ突入できる。そして、

「ページ抜け」を、いかに発見し、いかにマークし、いかに修正するのか?

と考えるよーになる。そして、システムに組み込むよーになる。


さて、比較的先を行く書籍の電子化プロジェクトでは、第2段階への突入が起こったのは、2005年後半と思われるよ。遅ればせながら、ブームしてる新聞電子化プロジェクトは、昨年末から、今年のはじめくらいに第2段階突入、と考えてみてはいかがでしょうか?約2年の遅れ。


そんな第2段階への幕開けをうたった文書を、訳しておきましたよ。ヒマなら読んでね。
http://docune.jp/doc/6643


この文書を出したのは、オーストラリア国立図書館。彼らの新聞電子化プロジェクトは、2006年11月からスタートしてて、300万ページを4年間でスキャンしよーって計画。予算は約8億円。すでに120万ページくらいをスキャン済み。7月25日から、70,000ページくらいをベータとして公開してる。


http://ndpbeta.nla.gov.au/ndp/del/home


ってわけで結局何が言いたいのかって言うと、「新聞電子化プロジェクトも、着実と段階を踏んでるよ。そんで第2段階までは、書籍電子化の後追いとして説明つくんだけど、第3段階からは、独自の道に分け入ったと見てるんよ。第3段階の話はそのうちするかもしんないので、それまでに、第2段階に入ったとこまでを、確実に押さえておいてね」ってこと。

*1:夏休みの宿題:比較的小規模のものは「ページ抜け」しないんですが、なんででしょ?理由を200字くらいにまとめて、送ってね。もれなく、コメントします。