FEATURES

English

印刷

進化する巨大仏典デジタルアーカイブ AI技術も取り入れ新しい人文学研究に道を開く

掲載日:2018年8月2日

1920年代から1930年代にかけて印刷、出版された大正新脩大蔵経の一部 © 2018 The University of Tokyo.

デジタル時代の知の継承はどうあるべきか。東京大学で20年以上にわたって仏典のデジタル化プロジェクトを展開してきたSAT大蔵経テキストデータベース研究会は、最初のウェブサイト公表から10年を迎え、様々な課題を乗り越え機能を充実させながら、仏教研究にとどまらない新時代の人文学研究の可能性を追求し続けています。

大学院人文社会系研究科の下田正弘教授を代表とする研究会は、1994年、東アジアの仏教経典と解釈書の集成である「大正新脩大蔵経」をデジタル化するために設立されました。 大正新脩大蔵経とは、1924年から10年間かけて旧東京帝国大学(現東大)の高楠順次郎教授など日本の仏教学者たちが出版した漢訳仏典の集成で、全100巻で構成されています。仏教がインドで生まれ中国、朝鮮半島を経て日本に伝来したのに伴い作成されたもので、中国語に訳されたインドの仏典、中国で書かれた仏典、日本で書かれた仏典などをまとめたものです。2500年前に起源をもつテキストを基本とした100巻のうち、漢語中心のテキストが85巻、図像部が12巻、目録が3巻を占めます。

SAT(大正新脩大蔵経のサンスクリット語訳、Saṃgaṇikīkṛtaṃ Taiśotripiṭakaṃの略称)研究会の取り組みは、単に文字をデジタルデータ化しただけではなく、知の伝承の形式を模索し提示してきたという点で大きな意味がある、と下田先生は語ります。

漢字を一文字ずつ手入力

2008年のテキスト部分公開に続き2016年に公開された図像部の一部 © 2018 The University of Tokyo.

SATプロジェクトは1994年、研究資料のデジタル化が学術研究の標準になることをいち早く予測した東大のインド哲学研究室教授で仏教学者の故江島惠教教授の主導で始まりました。江島先生が1999年に急逝された後、下田先生に引き継がれ、研究者やボランティアなど総勢約300人を動員して、合計1億字以上のテキストをデジタル化してきました。

プロジェクト開始当初はまだインターネットやパソコンも普及していない時代で、ワープロを使い一つ一つ漢字を入力し、入力データはフロッピーディスクで集める、というような形で作業が行われましたが、その過程で大きな問題が浮上しました。それは、多くの文字がワープロやコンピュータ上表示不可能な「外字」で、デジタルに変換できないことでした。

苦肉の策として、例えば人べんの横にプラス、マイナスという形で他の字の一部分をつけて記号化したり、外字の部分は黒い■で埋め込んで後ほど参照できるよう手書きで残したりしていたと下田先生は振り返ります。

数年後、中国と台湾の業者に入力作業を委託しチェックを研究者チームが行うようになり、OCRという印刷文字を読み込みデジタルデータに変換する技術を使い始めるようになりましたが、当時のOCRソフトは誤変換が多く、データのチェックも気の遠くなるような作業だったと言います。

時代の変化の波が一気に押し寄せ、体制が大きく変わったのが2005年。デジタル技術に精通した永崎研宣氏がプロジェクトに参画し、インターネットを使ってデータをやり取りするようになりました。 2008年、研究会は大正新脩大蔵経の全文検索ウェブサイトを公開しました。ただ、6000以上の漢字は、Unicode(ユニコード)という世界共通のコードが付与されておらず、画像としてしか表示できませんでした。

コンピュータに表示できない漢字

実は過去20年ほど、漢字のコード化をめぐってはさまざまな試みが現れ、国際的な環境が変動し続けたと下田先生は語ります。

SATプロジェクトを主導してきた大学院人文社会系研究科の下田正弘教授(右)と人文情報学研究所の永崎研宣主席研究員 © 2018 The University of Tokyo.

「漢字が消えていってしまう、コンピュータ上に残らなくなる、そういう事態に(政府機関は)危機感を抱いていませんでした」と下田先生は話します。「だったら民間の研究者が自分たちで作ろう、ということで多くのプロジェクトが生まれましたが、どれも、資金が切れると途絶えていきました」。

漢字をUnicodeに収載させるには、国際標準化機構(ISO)という様々な分野の国際規格を扱う非営利団体にそれらの漢字を認めてもらう必要がありますが、それまでISOに新たな漢字の登録を提言できるのは政府機関のみでした。SAT研究会では2005年から未登録の漢字が実際に使われていることを証明する資料を準備し始め、2012年にアメリカ、イギリス、カナダやオランダなどの大学の仏教、人文学研究者たちから署名を集め、学術界からISOに提言する権限を求める嘆願書を提出しました。そしてついに2017年、大正新脩大蔵経の中の2800字超の漢字を当時リリースされたバージョンUnicode10.0で符号化させることに成功しました。

ちなみにUnicodeでは2009年以降、2000種類以上の絵文字も収載されています。文字やコミュニケーションの歴史的変遷を考えさせる興味深い出来事です。 「漢字というのは総数でいくつあるかわかっていません」と下田先生は言います。「いまだに埋もれている、再発見されるべき漢字が(活字本には)眠っています。SATは将来に向けて、ISOの枠組みの中で見通しを提供しようとしています」。

外字をUnicodeに収録する動きはまだ続いています。漢字を同定し資料を集めるのに時間がかかるため、今後は300字ほどずつ申請していき、最終的に全部で4000字ほどの漢字について申請する見込みです。 「文字も、属性や実際に使われているエビデンス(証拠)がないと残せません」と永崎研究員は語ります。「2800字が認められたのは、文字数もすごいですが、きちんとプレゼンテーションをして、コード化に向け積極的な道筋を取っていくにはどうするべきかがわかったことに大きな意味があります」。

SAT2018年版では実験的にグーグル社の人工知能技術を取り入れたテキスト分析機能を取り入れた。検索した単語に関連する単語群を表示してくれる。© 2018 The University of Tokyo.

SATサイトは2012年、2015年に大幅な改訂が行われ、さらに今年4月に2018年版が公開されました。また2016年には多数の日本美術や仏教美術の専門家の協力のもと、国際的なウェブ画像規格に則った形で12巻の図像部のデータベースも公開されました。

SAT2018年版では、高校生でも読める平易な現代日本語で書かれた経典の一部が公開されたほか、研究者向けの便利な機能が数々含まれています。例えば、キーワードを検索すると、国内で出版された過去100年分ぐらいの関連論文が掲載されている学会のデータベース につながり、ドイツのハレ大学で作成された、過去200年間欧米で出版されてきた論文の目録が入ったデータベースにもすぐリンクします。 さらには、グーグルの開発した人工知能技術を使った文献の比較検索も実験的に導入されています。例えば「菩薩」という言葉をデータベースで引き、テキスト分析することで、中国でまとめられた仏教文献において菩薩という言葉に関連するキーワード群が、例えば日本で編纂された文献に出てくるキーワード群とどう違うか、マインドマップ(図解を使用する思考の整理法)のような表で簡単に比較することができます。

 

「大蔵経というのはインド、中国、日本で書かれたもの3つに分かれているので、例えば中国と日本とでは、言葉が語られる文脈が違う、ということがわかります。AI(人工知能)が出てきたら仏典の読み方がどう変わるのか、ということを仏教研究者だけでなく仏教者の方からもよく聞かれます。テキストをよく理解することについて皆さん真剣なので、こうした機能を提供することには意味があると思っています」と現在は一般財団法人人文情報学研究所主席研究員である永崎さんは話します。

デジタル・ヒューマニティーズの新しい可能性

下田先生は、こうした新しい機能は、日本の研究者たちが国際基準作りに関与するために、ひいては、欧米の作った近代以降の学術研究の舞台にアジアの研究により適合したプラットフォームを用意するためにも大事だと述べます。

大正新脩大蔵経には海外に輸出されるための洋装版と国内向けの和装版があった。一巻ごと箱に入れられ、東大本郷キャンパス前の人文情報学研究所に保存されている。© 2018 The University of Tokyo.

「現実がどう変わっていくのか読めない中、国際標準構築に向けて世界のプロジェクトと協働してゆくことが大切です。トライアル・アンド・エラー(試行錯誤)のエラーの意義を共有することにも価値があります」。

データベースを使った研究は国内外に広がっています。オランダのライデン大学、カナダのブリティッシュコロンビア大学、ドイツのミュンヘン大学などから共同研究の申し出が相次ぎ、現在東大では10以上の国際共同プロジェクトが進行中です。

「もはやSATデータベースを使わないとできない研究というのがいっぱい出てきています」と永崎研究員は話します。 「例えば、東京国立博物館にはお経の切れ端がたくさん保存されています。中世に書かれた写経の断片でどれも丁寧な字で書かれた貴重な資料なのですが、どのお経のどの部分かわかっていなかったそうです。それがSATのデータベースでほぼ同定できたと聞いています」。

SATで得られた経験をほかの分野にも広げる動きも始まっています。すでに東大では2012年から、大学院生向けの横断的教育授業が提供されており、デジタル・ヒューマニティーズ(人文情報学)の担い手が日本から育ちつつあります。

「SATはデジタル時代の知識基盤を作っていく上のあくまで一つの事例だと思っています」と下田先生は話します。「その事例をできるところまで進めて、問題をできる限り把握して伝えていきたいと思っています」。

取材・文: 小竹朝子

関連リンク

関連教員

アクセス・キャンパスマップ
閉じる
柏キャンパス
閉じる
本郷キャンパス
閉じる
駒場キャンパス
閉じる