simpleA記

馬にふつまに 負ほせ持て

「アキラメない」連中の系譜



書籍の電子化について、現状把握をしよーとしてんだけど、今回の切り口は、「OCRのあたり」。


書籍電子化の歴史と、OCR*1の発展の紆余曲折は、姉妹のよーなもの。


OCRの発展の紆余曲折を知ることはとっても大事。
ただ、紆余も曲折もぜーんぶ見ようとすると大変だから、とりあえず「アキラメない」面々に注目しましょ。


出発点:OCRってダメじゃん。使えねぇー。


使えないOCRを前にして、たいていはアキラメる。もーだめだ、書籍電子化なんて、やってられん、ってな感じで。(上図、右の矢印で出て行ってしまう。)


ところが、世の中には、なかなかアキラメん連中がいるもので、時に彼らはとんでもないイノベーションをもたらす。*2


使えないOCRを前にして、それでもアキラメなかったのは、次の3派。


1.それでもかけっぱ派 (左派)
2.タグでいいじゃん派 (中道)
3.なんとしても修正じゃい派 (右派)


第1の「それでもかけっぱ」派の代表格は、Amazon。
「お前はAmazonの回し者か?」って言われちゃうくらい、私はいつも「Amazonってすごいよ」と言ってる。何がすごいかというと、書籍電子化史において、OCRかけっぱのテキストデータ使ってビジネスしようとしたのは、このAmazon*3。テクノロジーとか、先見性がすごーいってより、その勇気がすごい。まさに、「けものみち」を進んだと思うよ。


そのAmazonの切り開いた「かけっぱ」フィールドに、さらにとんでもなく儲かる(かもしんない)仕組みを持ち込んできたのが、Google Book Search。GBSはあまりにも有名だから、わざわざ書く必要ないよね。でも、1点だけ確認すれば、GBSはOCRかけっぱを使って、検索させてるよね。


左翼をみたら、次は右行きましょ。アキラメない右派として、「なんとしても修正じゃい」派。


アメリカだとDistributed ProofReadersというグループがいて、OCRかけたモンをみんなでチェックして、誤字脱字などをチェックしてる。Making of AmericaThe Million Book Projectなどの、オンライン・コレクションを、みんなでよってたかって修正している偉いグループ。ボランティアね。


The Million Book Projectってのはアメリカのカーネギーメロン大学っていうかわいい名前の大学が中心にやってんだけど、最近、このかわいい大学はさらにアキラメなかったことがあって、そのことでちょっと話題になったよね。reCAPTCHAってんだけど、まだ知らん人はこっちを見てね。


こんな感じで、やっぱり電子化して、ぜーんぶ立派なテキストにしたいよっていうグループは必ず出現して、地道に活動する。日本でも「青空文庫」が似たよーなことするよね。


そんで、どの世でも、右と左で論争してると、かならず、中間がでてくる。まぁ、どっちでもいいじゃん、って感じで。


中道として紹介するのは、Footnote社ね。


細かく言えば、Footnote社はOCR使って、テキストデータに変換したりしない。でもね、OCR使ってテキスト変換するってのは、別の見方をすれば、書籍の1ページを写した画像に対する「タグ付け」をしてるってことなの。そんな意味からすれば、Footnote社のやってることは、使えないOCRに直面して、それでもめげず、「タグ付け」ってことで迂回した、と言いたい。


そんなFootnote社は、簡単に言っちゃえば、「歴史的な資料を電子化して、オンラインに載せる。そんで、そのオンライン画像に、書き込みしたり、お気に入りとしてマークしておいたり、ということができるプラットフォームを提供する。」ってな会社。


例えば、手書きの手紙って、まぁOCRで読むとおもしろいことにはなるだろうけど、全く実用性ないよね。そんな手紙の中で、地名や人名などを、何の目的だか知らんけど、メモしてくれてる連中がいるわけ。そーすっと、人名とかで検索すると、その人の手書き手紙がひっかかるようになって、まぁ、便利だね。イメージ沸かない人は、これを見てみよう。



ってなわけで、結局何が言いたいのかっていうと、「現状把握をするときに、系譜ってのを意識しよう。今回は時系列を少しだけ取り除いてジンプルな図にしたけど、もっと時間を入れてくと、もっと見えてくる(かも)よ」ってこと。

*1:OCRってのは、スキャンした画像の中から、文字を拾ってきてくれる便利屋ソフトのことね

*2:でも、注意したほうがいいのは、アキラメなければ、必ずイノベーションを起こすんじゃなくて、イノベーションを起こしたもんを振り返ると、アキラメてないってだけね。だから、アキラメないことは重要だけど、それだけじゃ、どーにもならん場合もあるよ。

*3:ただし、電子化したデータの販売ではなく、そのデータを使って検索性を高め、売上向上を目指した点には留意ね。