読者です 読者をやめる 読者になる 読者になる

simpleA記

馬にふつまに 負ほせ持て

失敗のパターンをいくつか紹介

書籍電子化


そろそろ春だし、ちょっとマニア度高いこと、話しましょ。*1


スキャン失敗した画像にも、いろんな種類があんのって気付いてた?


まずは、基本を押さえましょ。普通、下のような「ボヨーン」って画像があったら、「ボヨーン」と膨らんでいるほうが、ページの「のど元*2」ね。この画像で言えば、左側が綴じられている方(つまり「のど元」)。(まぁ、この例の場合、ページ番号が振ってあんので、別の意味で明らかなんだけどね。)

テキストはありません
慶應義塾百年史 著者: 慶應義塾

なんでこんなことになるのか、って言うと、この本は900ページくらいのブ厚い本。そんくらいの本が手元にあったら、広げてみて*3。そーすっと、のど元のあたりがうまく広がらないから、盛り上がるでしょ。(シンプルに言えば)他の部分より盛り上がってる部分があると、そこの文字が大きく写る。というわけで、この画像は、ブ厚い本をスキャンしよーとする場合、いたってよくある画像


次に、この画像見ましょ。

テキストはありません
慶應義塾百年史 著者: 慶應義塾


1枚目と何が違うか分かるー?すぐに分かるのは、左(のど元)の方の「ドカーン」って部分。


普通ならね、1枚目の画像のように

テキストはありません

こんな感じで、(右から左へ見ていくと)文字がだんだんと大きくなって、また再び小さくなっていくはず。


ところが、2枚目は

テキストはありません

こんな感じで左(のどもと)に向かって文字の大きさが発散していっちゃうってことは、「ページが破れてふわふわしてる」って可能性が高い。つまり、「本の状態が悪い」場合に、こんな画像が紛れ込む。なので、1枚目の失敗理由とは、また別の理由なんよ。



3つ目の画像として、これ見ましょ。

テキストはありません
慶應義塾百年史 著者: 慶應義塾

オンラインの画像だと見分けにくいんだけど、PDFをダウンロードしてきて、790ページを見ると、

こんな感じで、ページの左上のあたりに、かすれたような色の薄い部分がある。(文字の大きさやゆがみについては、もう説明いらんよね。)


これは、スキャンの失敗ではなくて、スキャン後の画像処理における失敗だよ。どんな失敗してんのかって言うと、「下の画像のように、ページ内の写真部分を自動認識して、その矩形部分だけグレースケールで処理し、それ以外の文字部分は二値化するようになってんだけど、文字がボカーンと大きくなった部分を、写真なんだと誤認しちゃってグレースケール処理しちゃったよー」ってことなんだけど、まぁ、細かいことはいいよね。


http://books.google.co.jp/books?id=1OVGAAAAIAAJ&dq=%E6%85%B6%E5%BF%9C+%E7%BE%A9%E5%A1%BE+%E7%99%BE%E5%B9%B4+%E5%8F%B2&as_brr=3&pg=PT223&ci=279,681,511,165&source=bookclip


ってなわけで、結局何が言いたいのかって言うと、「書籍のスキャン画像を見続けること、早5年。おーよそ1000万枚以上のスキャン画像を見てんので、おそらく5万枚以上のヘンテコ失敗画像とお付き合いしてきたことになーる。失敗画像ってのは、テレビとかのNG集とかと同じで、スキャン現場*4の様子、本の様子、作業者の様子などを雄弁に語るわけで、スキャンプロジェクトの様子を探る最大の情報源になってるよ。普通、Googleのスキャンプロジェクトは秘密ばっかで何も教えてくんないけど、(他プロジェクトと違って)失敗画像は豊富に公開してる。そーすっと、その失敗画像からの情報を寄せ集めれば、何やってんのか、だいたい分かるよね。今回は、3つくらいしか紹介できんかったけど、他にも、たーくっさんの情報が失敗画像を通じて公開されてるんだよ」ってこと。

*1:ただし、分かりやすさ優先のため、厳密に話をしてないので、要注意ね

*2:http://www.library.pref.osaka.jp/nakato/osaka/book_bui.html

*3:500ページくらいでもOKだよ

*4:どのスキャナを使ったのか、なども含む