【第三版】ScanSnap S1500とAdobe Acrobat 9 standard ― フルテキスト検索の意義と『存在と時間』と岩波書店と 2009年05月15日
ScanSnap S1500(http://www.ashida.info/blog/2009/05/scansnap_s1500dropbox_scansnap.html#more)が、文書のスキャニング装置、つまり紙データを電子ファイル化する装置であることはよく知られているが、一方で紙文書をPDF化する機能も持っている。これもよく知られている。
この写真に映っているコンピュータ(マッキントッシュSE30)の意味は後でわかる。
ScanSnap S1500で、スキャニングするとScanSnap Organizerというアプリが自動的に立ち上がるが、同時にAdobe Acrobat 9 standardが背後で機能し、紙文書のスキャニングにもかかわらずフルテキスト検索できる状態でPDF化してくれる。
つまり、たくさんのフォルダファイルに「分類」し通常の書棚では入らないサイズの保管庫を用意したり、パラパラと紙をめくり付箋やマーキングを行うことなしには「検索化」出来なかった文書管理が、Google検索するようにして検索可能になる。
紙の分類や付箋、マーキングが気休めでしかないことはみんな知っている。
一回(最初に)分類したり、一回(最初に)付箋をはったり、一回(最初に)マーキングをしたりした後で、再度、その印(しるし)目当てに利用することは滅多にない。
なぜか。それは分類や付箋やマーキングという作業を(そこで)したこと自体を人は忘れるからだ。ハイデガーも言っていたとおり、記号とは「記号の記号」であり、またその記号の記号の記号でありというような超越構造をもっている。だから、分類、付箋、マーキングは気休めなのだ。何も覚えたことにならない。忘却なしに記憶は存在しない。
したがって、紙文書の電子化は、文書をフルテキスト検索(既成のインデックスを超えて文書の文字の一つ一つまで探し出してくる検索)できる状態にすることなしにはほとんど意味のないことだ。スペースの省略ということは些細なことなのである。
その意味で言うとScanSnap の便利さは、ScanSnap Organizerの便利さもさることながら、Adobe Acrobat 9 standardの出来の良さが利いている。
特に検索機能は秀逸で、どの文書にその言葉があるかだけではなく、その文書のページ内の該当語句をマーキングして視覚的にも示し、かつその語句を含んだフレーズを別のウインドウで抜き出し列挙する機能まで付いている。利用の利便さとしては、むしろこの抜き出しセンタンスを見ながら、そのフレーズをクリックすると該当ページが開くという使い方が普通だろう。この機能は一度使うとはまってしまう。Googleデスクトップ検索よりもはるかに使いやすい。全てのワードファイルもAcrobatを通したくなるほどだ。実際やり始めている(苦笑)。
Adobe Acrobat 9 standard(http://www.adobe.com/jp/products/acrobatstd/)は、この製品単体でも36,540円もする。AMAZONや価格コムで買っても30000円を切るかどうかだ。ScanSnap S1500自体は価格コムで38,480円だから(2009年5月15日現在)、高性能なオートシートフィーダー付き高速スキャナー(+ScanSnap Organizer+名刺ファイリングOCR)自体には、1万円しかかかっていないことになる。
これはどう考えても安い。今から約20年前、私はマッキントッシュのSE30(http://apple.ism.excite.co.jp/page/Macintosh+SE/30.html)を70万円ほど出して買い込んだ。それに、OCRアプリ(光学的文字読み取り装置)+オートシートフィーダー付きスキャナーが約200万円。全部で300万円近くかかった。
何をやろうとしたのか。ハイデガーの『存在と時間』のドイツ語原典Sein und Zeit(Max Niemeyer版)を電子フルテキスト化しようとしたのだった。岩波書店の合庭淳(当時は雑誌『思想』編集長)がその話に乗ってきて、ドイツのMax Niemeyer社との版権交渉もうまくいって世界初の『存在と時間』の電子出版が、岩波書店からでる直前まで進んだが、いつのまにか、合庭淳が静岡大学へ転出して、結局「事業」は頓挫してしまった。
まだフルテキスト検索という概念が一般化していなかったし、今からみれば文字データにすぎないデータでも一冊の書物大のデータを扱うこと自体が難しい時代だった。たしか私のSE30は、8MB!?のメモリーを積んでいたが、そのメモリー増設だけでも10万円以上したと思う。8MBですよ(苦笑)。
しかしわれわれは、同時に検索アプリも自己開発して、たとえば、ハイデガーがDasein(=現存在)という単語を『存在と時間』全ページの中で(あるいは任意のページの中で)ページ単位に何語使っているのかを棒グラフにして出せるようにもしていた。それをやると『存在と時間』のどの箇所が「現存在」論のピークが(なのかさしあたりは量的なピークに過ぎないが)一目でわかる。また全体で何回出てくるかも瞬時にわかる。
そしてまた、語数だけではなく、その検索語を含んだ前後3行センテンス抜きだし、5行センタンス抜き出し、10行センテンス抜き出しが自由に(任意のページ間で)出来るようになっていた。
当時のテキストデータベースの最大の難点は、「頁」概念の不在だったということ。パソコンの「テキスト」概念には「行」の概念しかない。当時のコンピュータにとって、「テキスト」とはプログラム文のことでしかなかった。
しかしあらゆる文献データは、いつでも「頁」が基本的なサブデータとしてつきまとう。「書物」とは「頁」のことである。その語句は何頁にある語句なのかと。となると、文字を読みとるだけではなくて、その読みとったデータに、正確な「頁」概念を形成する必要があった。これは当時はすべて手作業だったのである。Adobe Acrobatにも「頁」概念はない。Acrobatにとって頁とは、スキャニングした順番を意味しているだけであって、書物の「頁」を読みとっているわけではない。スキャニングの一枚目が1頁目でないことは明らか。
結果、われわれは丹念に頁を割り付けながら、検索したすべてのキーワードやキーセンテンスを提示するとともに、そのそれぞれに(25/236)、236頁の25行目というように表示できるようにしたのである。
つまり文献研究の基本作業はすべてこのわれわれの電子化で全て行えるようになっていた。文献研究者が20年、30年と読みこんで作る丸善文献カードが一夜で(しかもはるかに正確に)出来上がるのである。
私は当時川原栄峰教授のSein und Zeit講読演習(博士課程後期)に参加していたから(http://www.ashida.info/blog/2007/01/post_185.html)、この思いはなおさら強かった。川原先生の著作にはいつもこの語句の回数が出てくる。
「437頁からなる『存在と時間』の中で、「主観(Subjekt)、あるいはSubjektum、さらにsubjektiv、subjektivistisch、subjektivitaet、Subjektivesなどという用語が(「主語」という意味のものを除いて)じつに123回以上も用いられている。しかも例外なくネガティヴに。さらに『自我』(ich)という語が(ごく普通の「私は…」という意味のものを除いて)少なくとも51回は用いられている。両方を加算すると174回以上になる。2頁半に一回の割合になる。前に述べたように、es geht …um…というポジティヴなキーワードは44回である。これに比べてネガティヴな『主観』(と『自我』)という語の頻度がいかに大きいかがわかる。ほぼ四倍である。10頁に一回ポジティヴ、10頁に4回ネガティヴという割合と言ってもよかろうか」(『ハイデッガーの思惟』58頁)
これは彼の博士論文。実際、ドクターたちを集めた講読演習でもこの感じ。彼は、悪玉、善玉、どちらでもないという三種類の文献カード(丸善カード)をハイデガーの公刊されている全著作から作り出していて私たちにいつでも使えるように公開していた。このカード集を彼は30年以上かけて作っている。この『ハイデッガーの思惟』は彼が61歳の時の著作なのだから。そんな年季の入ったカードを見せつけて、「芦田くん、いつでも使っていいよ」なんて。これがまたイヤミなことイヤミなこと。
コンピュータのない当時、一つ一つのテクニカルタームの語数(までも)を指摘するということは、それほど丹念に著作を「読んでいる」ということを(さしあたりは)意味している。これは私を含めたドクター連に対する脅しとイヤミでしかなかった。
西洋の文献学(特にキリスト教文献学の伝統を持つ文献学)なら、これくらいのことは当たり前だが、早稲田でこの種の講義を出来るのは、川原ゼミしかなかった(今の早稲田でテキストクリティークをやれる教授は1人もいない)。
私がテキストを読むことの手法を学んだのは、この川原教授とデリダのデコンストリュクシオン(脱構築)の影響が大きいが(http://www.ashida.info/blog/2007/01/post_185.html)、一方で、この回数読解(苦笑)をいつかはひっくり返してやろうと思っていた。そもそも「123回以上」の「以上」が許せないではないか。コンピュータならこんないい加減なことをいいませんよ、川原先生! 文献学者としてもそれはおかしいでしょ(苦笑)。
敬意と軽蔑が入り交じった当時の私は、コンピュータに任せるものはコンピュータに任せましょう、という今では自然な感覚で、データベース化に取り組んだものだ。
MS-DOSの時代、インターネット以前の時代において、今のAdobe Acrobatよりも遙かに優れた文献データベースを作り上げたのである。
われわれは、公刊されつつあったハイデガー全集ドイツ語版を次々にデータベース化していった(最後には西田幾多郎の主要著作にまでも手を出していた)。
『哲学への寄与論稿』(日本語版ハイデッガー全集65巻)を訳した大橋良介教授(現大阪大学教授)も我々の作ったデータベースを利用されている。当時京都から上京されて、わざわざ世田谷の私宅を訪問されたくらいだ。
しかし「岩波書店」化(苦笑)が頓挫して、われわれの画期的な文献データベースは日の目を見なかった。元々私の文献研究が動機だったし、岩波が頓挫したのは、合庭淳の問題と言うよりは、岩波が元々ハイデガーが嫌いだからだろう、と思っていた。だから岩波をつつく気も起こらなかった。岩波が出せる本は、せいぜいスタイナーのハイデガー論くらいだ(決して悪い本ではないが)。ナチ戦犯ハイデガー、という月並みな左翼主義が岩波のスタンスだ(出版界の朝日新聞?!)。岩波に『存在と時間』が出せるわけないではないか(苦笑)。
だから、いま、このScanSnap S1500とAdobe Acrobat 9 standardのフルテキストPDF化は、隔世の感があるというよりは、なぜこんなにも時間がかかったのだろうということだ。当時の我々のデータベース機能に比べればまだまだ劣っているが、二つで4万円以下でできるというのは脅威的だ。でも20年もかかっている。喜んでいいのか、悲しんでいいのか。
今、思い出しました。当時、われわれは、世界中にハイデガー研究者は何人いるのか、哲学研究者何万人、「高度な」読者何十万人、世界の大学図書館の数、公共的な図書館の数などと試算して、仮に一データベース100円で売ってもかなりの金額になるぞ、と「捕らぬ狸の皮算用」とやらをやっていたのを思い出します。300万円の投資は決して高くはないと(苦笑)。平和な時代でした。
だからみなさん、ScanSnap S1500+Adobe Acrobat 9 standard(http://www.amazon.co.jp/富士通-FI-S1500-FUJITSU-ScanSnap-S1500/dp/B001QXCZ12/ref=sr_1_1?ie=UTF8&s=electronics&qid=1242317094&sr=8-1)の39,499 円という価格を見ると、私にはみなさんには決してわからない感慨がわいてくるのですよ(笑)。私の人生を変えたかもしれない「価格」が39,499円ですよ。どう思いますか(苦笑)。
追伸
ScanSnap S1500は、当時のスキャナー(+オートシートフィーダー)やOCRと違って、以下の点で優れている。
1)感度・解像度の自動調整機能がある。当時のものは、OCRの読み取り精度は濃度設定(感度・解像度設定)が決定的で、なんども試しスキャニング(=試し読み取り)をしながら時間をかけていた。感度を高くすると、ちょっとしたゴミまでひろってしまって、文字を読み取る時に邪魔になる。感度を低くするとそれはそれで文字自体の形を読み取れなくなる。感度設定はOCRの生命線なのだ。
2)傾きの自動調整機能がある。これも神経質になる要素。オートシートフィーダーは、何枚も連続化すると、紙を送り出す際に必ず傾いて送り出し始める。どんどんその傾きが大きくなって、感度と同様また読み取り精度に影響を与える。われわれは、一回一回傾きを補正しながらやっていた。職人技のようなものである。
3)裏表同時にスキャニングできる。しかも裏にも原稿があるということ自体をスキャナーが自動判断してくれる。当時はそんなスキャナーはなかった。本などは、ほとんどが裏頁にも原稿があるのだから、どれだけこの機能がありがたいことか。1)~4)の自動機能のおかげでScanSnap S1500は、まるでギャル曽根が何でもどんどん食べ込んでいくように、紙文書をのみこみ続けるのだ。しかも分別をもって。
4)上記1)~3)の自動調整ができるおかげで(しかも解像度を高くしてもスキャニングスピードが落ちないおかげで)、当時のスキャニング+文字読み取りの10倍以上の速度で文字読み取り作業を進めることが出来る。
5)当時OCR装置(ソフトウエア)の本場は(今でもか?)、イスラエルだった。イスラエルには、何ヶ国語ものOCRソフトが存在している。世界各国に隠れ住んでいるナチ戦犯を捕まえるためのスパイ活動がいかに本格的なものか、民族の執念を感じさせるものだった。
(Version 8.0)
※このブログの現在のブログランキングを知りたい方は上記「教育ブログ」アイコンをクリック、開いて「専門学校教育」を選択していただければ現在のランキングがわかります)
この記事へのトラックバックURL:
http://www.ashida.info/blog/mt-tb.cgi/1064
こんにちは。
早くも20年前に文献の電子ファイル化に着手されていたとは驚きでした。
例えば古典ギリシャ語文献の電子化が当時欧米で盛んに行われはじめたことは知っていましたが、時を同じくしてまさか日本で(!)そんな試みがなされていたとは。
しかし、、、
>今から約20年前、私はマッキントッシュのSE30を70万円ほど出して買い込んだ。それに、OCRアプリ(光学的文字読み取り装置)+オートシートフィーダー付きスキャナーが約200万円。全部で300万円近くかかった。
とありますが、「院生は金がない」とよく聞き及ぶものですから、そんな大金をどう捻出されたのかが気になってしまいました。不躾なコメントで申し訳ございません^^;