「アキラメない」連中の系譜
書籍の電子化について、現状把握をしよーとしてんだけど、今回の切り口は、「OCRのあたり」。
書籍電子化の歴史と、OCR*1の発展の紆余曲折は、姉妹のよーなもの。
OCRの発展の紆余曲折を知ることはとっても大事。
ただ、紆余も曲折もぜーんぶ見ようとすると大変だから、とりあえず「アキラメない」面々に注目しましょ。
出発点:OCRってダメじゃん。使えねぇー。
使えないOCRを前にして、たいていはアキラメる。もーだめだ、書籍電子化なんて、やってられん、ってな感じで。(上図、右の矢印で出て行ってしまう。)
ところが、世の中には、なかなかアキラメん連中がいるもので、時に彼らはとんでもないイノベーションをもたらす。*2
使えないOCRを前にして、それでもアキラメなかったのは、次の3派。
1.それでもかけっぱ派 (左派)
2.タグでいいじゃん派 (中道)
3.なんとしても修正じゃい派 (右派)
第1の「それでもかけっぱ」派の代表格は、Amazon。
「お前はAmazonの回し者か?」って言われちゃうくらい、私はいつも「Amazonってすごいよ」と言ってる。何がすごいかというと、書籍電子化史において、OCRかけっぱのテキストデータ使ってビジネスしようとしたのは、このAmazon*3。テクノロジーとか、先見性がすごーいってより、その勇気がすごい。まさに、「けものみち」を進んだと思うよ。
そのAmazonの切り開いた「かけっぱ」フィールドに、さらにとんでもなく儲かる(かもしんない)仕組みを持ち込んできたのが、Google Book Search。GBSはあまりにも有名だから、わざわざ書く必要ないよね。でも、1点だけ確認すれば、GBSはOCRかけっぱを使って、検索させてるよね。
左翼をみたら、次は右行きましょ。アキラメない右派として、「なんとしても修正じゃい」派。
アメリカだとDistributed ProofReadersというグループがいて、OCRかけたモンをみんなでチェックして、誤字脱字などをチェックしてる。Making of AmericaやThe Million Book Projectなどの、オンライン・コレクションを、みんなでよってたかって修正している偉いグループ。ボランティアね。
The Million Book Projectってのはアメリカのカーネギーメロン大学っていうかわいい名前の大学が中心にやってんだけど、最近、このかわいい大学はさらにアキラメなかったことがあって、そのことでちょっと話題になったよね。reCAPTCHAってんだけど、まだ知らん人はこっちを見てね。
こんな感じで、やっぱり電子化して、ぜーんぶ立派なテキストにしたいよっていうグループは必ず出現して、地道に活動する。日本でも「青空文庫」が似たよーなことするよね。
そんで、どの世でも、右と左で論争してると、かならず、中間がでてくる。まぁ、どっちでもいいじゃん、って感じで。
中道として紹介するのは、Footnote社ね。
細かく言えば、Footnote社はOCR使って、テキストデータに変換したりしない。でもね、OCR使ってテキスト変換するってのは、別の見方をすれば、書籍の1ページを写した画像に対する「タグ付け」をしてるってことなの。そんな意味からすれば、Footnote社のやってることは、使えないOCRに直面して、それでもめげず、「タグ付け」ってことで迂回した、と言いたい。
そんなFootnote社は、簡単に言っちゃえば、「歴史的な資料を電子化して、オンラインに載せる。そんで、そのオンライン画像に、書き込みしたり、お気に入りとしてマークしておいたり、ということができるプラットフォームを提供する。」ってな会社。
例えば、手書きの手紙って、まぁOCRで読むとおもしろいことにはなるだろうけど、全く実用性ないよね。そんな手紙の中で、地名や人名などを、何の目的だか知らんけど、メモしてくれてる連中がいるわけ。そーすっと、人名とかで検索すると、その人の手書き手紙がひっかかるようになって、まぁ、便利だね。イメージ沸かない人は、これを見てみよう。
ってなわけで、結局何が言いたいのかっていうと、「現状把握をするときに、系譜ってのを意識しよう。今回は時系列を少しだけ取り除いてジンプルな図にしたけど、もっと時間を入れてくと、もっと見えてくる(かも)よ」ってこと。