古典文学や古文書などの学習・研究で壁になるのが「くずし字」。研究者や専門家でも解読には時間を要し、そういった文献になじみがない場合、何が書いてあるのかわからないですよね。くずし字をきちんと読める日本人は数千人程度(人口の0.01%程度)といわれているそう。しかし、貴重な歴史的資料を後世に継承していくためには、くずし字を解読し、理解できることが必要です。昨今はくずし字の認識や学習にAI(人工知能)の活用が進められ、アプリも登場。今回は話題の「くずし字認識アプリ」を使ってみました。
古典文学や古文書の原文、読めますか?
AIを活用したくずし字アプリは、これまでにもいくつかあり、この大学アプリレビューでもご紹介しました。
大学アプリレビューvol.8 古い仮名を読もう!「変体仮名あぷり」
大学アプリレビューvol.10クイズでくずし字学習ができる 大阪大学「くずし字学習支援アプリ KuLA」
今回注目したのは、人文学オープンデータ共同利用センター(情報・システム研究機構 データサイエンス共同利用基盤施設 )が発表したアプリです。同センターでは、人文学に関する膨大な資料をデジタルアーカイブ化。国立情報学研究所と統計数理研究所が組織の枠を超えて情報学・統計学など最新のデータサイエンス技術を活用し、「人文学ビッグデータ」として、広く公開しています。
そんな文理の知見を結集させて、2021 年 8 月に公開されたのがAI くずし字認識アプリ「みを(miwo)」。約 100 万文字もの「くずし字」を学習した最新のAI くずし字認識技術を用いた性能に加えて、UI・UX(※)の素晴らしさから2022 年度グッドデザイン賞(主催:公益財団法人日本デザイン振興会)を受賞。アプリのダウンロード数は約 10 万回、AI が認識した画像数は 100 万件に迫る勢いで「バズっている」のです。
※UI:ユーザーインターフェイス。利用者の使い勝手のこと/UX:ユーザーエクスペリエンス。商品やサービスの品質やそれによって得られる体験のこと
そこで、学生時代に専攻していた国文学の授業で、くずし字の解読にとても苦労した筆者が「みを」を使ってみることにしました。
まず、「くずし字」について、おさらいを。文字=漢字は中国から伝わり、奈良時代までは、「あ=安」のように、漢字の字音や字訓で日本語を表す万葉仮名が使われてきました。
平安時代に入り、平仮名・片仮名が誕生。「安」の形状から、ひらがなの「あ」という形が生まれました。ただ、この時代は「あ」として読んだり、書いたりする漢字は「あ」のもとになった「安」だけでなく、「阿」「愛」など複数存在。しかも使い方にルールはなく、同じ「あ」でも、平仮名の「あ」が使われていることもあれば、「安」「阿」「愛」といった漢字が使われていることもあり、混在した内容を読むのは現代人にとって至難の業です。こういった平仮名の音、読みを当てはめた漢字を「変体仮名」といいます。
そして「変体仮名」は速く書くためにくずして書かれるので、さらに解読するのは難解に。どの漢字をくずしているのか知らないと解読は難しいのです。このくずし字の原型の漢字のことを「字母」といいます。なお、平仮名が今のように1種類になったのは1900年のこと。「小学校令施行規則」により統一されました。
カメラで撮影してボタンを押せば瞬く間に認識完了!
少し前置きが長くなりましたが、難解なくずし字、使い方にルールがなく混在する変体仮名を素早く解読できるようにと開発された「みを」。アプリの案内によると、その最大の特長は使いやすさなのだそう。カメラでくずし字資料を撮影してボタンを押せば、AI がわずか数秒でくずし字を現代日本語の文字に変換(翻刻)してくれるのです。
では、「みを」をレビューしていきましょう。くずし字認識に使う資料は、大学共同利用機関法人 人間文化研究機構 国文学研究資料館のホームページで公開されている古典書籍を活用させていただきました。まず選んだのは古典文学の代表的存在である『源氏物語』の「第一帖 桐壺」です。
大学共同利用機関法人 人間文化研究機構 国文学研究資料館 Webサイト
左の写本は国文学研究資料館所蔵
「みを」を開いてカメラボタンをタップし、デジタル化されている古典書籍をパソコンの画面越しにパシャリ(▲写真左)。緑色の認識ボタンをタップすると、わずか数秒で認識結果が撮影した資料画像に重ねて表示されました(▲写真右)。すごい速さと正確さ! 学生時代、拡大鏡を片手にくずし字を見て、「くずし字辞典」を調べてと、悪戦苦闘していたのは何だったのでしょうか。あのとき、「みを」があったらよかったのに、と思ってしまいます。
国文学研究資料館所蔵
さらに画面下部のスライドバーを左右に動かすと、元の資料画像と認識結果を見比べることができます。これはなかなか面白い! どんな文字が書かれているのかが、よくわかります。
また、「第一帖 桐壺」の冒頭、元の資料画像では「いつ連乃」と変体仮名混じりで書かれていますが、認識結果では「いつれの」と現代の平仮名に直して表記されているので、読みやすく、「連」が「つ」、「乃」が「の」の変体仮名であることがよくわかります。
認識結果は画面下部のテキストを押すと、現代の楷書で横書き表示されます。古文が横書きというのは斬新。この横書きのテキストはコピーも可能です。
ここで試した『源氏物語』のデータは、室町時代に書き写されたもの。実は紫式部自筆の原本や平安時代の写本は現存しておらず、鎌倉時代に『小倉百人一首』の撰者として知られる藤原定家が書き写したものが最古です。
国文学研究資料館にはさまざまな時代に書き写されたり、木版で印刷されたりした『源氏物語』が所蔵・公開されています。時代によって、『源氏物語』の写本はどう変わっているのでしょうか。そこで、「第一帖 桐壺」について、公開されている江戸時代の版本と室町時代の写本を見比べてみました。
室町時代に書き写された『源氏物語』の写本(左)、江戸時代に木版された『源氏物語』の版本(右)。いずれも国文学研究資料館所蔵
同じくずし字でも江戸時代の版本は現在の平仮名に近いものが多く、時代とともにくずし字も変化していることが見て取れます。さらに江戸時代の『源氏物語』を「みを」で認識したところ、現代に近い平仮名に加えて、漢字のくずし具合がやや緩やかになっていることもあって、文字も内容もよりわかりやすくなりました。
読めない、わからない字は簡単に検索できて便利
さて「みを」は、一文字ごとのくずし字、変体仮名の検索機能も充実しています。
読めない文字や調べたい文字について、元の資料画像の筆文字か認識結果の楷書文字のいずれかを長押しすると赤くハイライト表示されます(写真上)。さらに画面(文章)内で使われている同じ文字もハイライト表示されます。
ハイライト表示された文字をタップすると……。
ハイライト表示した「あ」をタップするとポップアップでその他の変体仮名と字母を表示(左)、ハイライト表示した「給」という漢字をタップするとポップアップで「字母」を表示(右)
ハイライト表示された文字をタップすると、辞書のように、平仮名の場合は複数ある変体仮名と字母がポップアップで表示されます。漢字の場合はどの漢字をくずしているのかを表示。そもそもこれは何の漢字なのか、判別すら難しいくずし字の解読にも役立ちます。
さらに検索ボタンを押すと、この「みを」アプリを公開した人文学オープンデータ共同利用センターのデータベース「日本古典籍くずし字データセット」にアクセスして、各文字についてより詳しく調べることができます。この「日本古典籍くずし字データセット」は、国文学研究資料館と関係機関が所蔵する「日本古典籍」のデータセットをもとに、100万文字以上の変体仮名やくずし字をデータベース化したもの。つまり「みを」は最新かつ日本最大規模の「くずし字辞典」を携帯し、簡単に検索できるという役割も果たしてくれるのです。
元の資料画像、認識結果ともに、上の写真にあるように画面上部の□(四角)のアイコンをタップすると、一文字一文字が囲われて表示されます。平仮名の場合、さらさらと続けて書かれていることが多いので、区切りがわかりやすくなります。
グッドデザイン賞の受賞理由にもなっているように、アイコンによって直感的かつ簡単に使えたのはうれしいポイント。難しいくずし字がカラフルに囲われたり、スライドして楷書と見比べることで理解がしやすくなることも、「みを」の魅力のひとつではないでしょうか。
日本人として解読を。頼れる古典の水先案内アプリ
この「みを」、開発者はなんとタイ出身の方! 『源氏物語』をはじめとする古典文学に魅了され、日本の大学院に進学。『源氏物語』の研究と並行して、AIによるくずし字認識に取り組んだそうです。大半の日本人が読めない、今の暮らしに関係ないと敬遠している古典文学について、その魅力を何とか伝えようと、外国の方が挑まれたとは。日本人として恥ずかしい気持ちがして、久しぶりに学生時代に使っていた古典の文献を開いた次第です。
「みを」公式HPによると、アプリ名の「みを」は『源氏物語』の「第14帖 みをつくし」から命名。「みをつくし」とは、川などを往来する舟の目印のために打たれた杭のこと。このアプリがくずし字資料の海を旅する水先案内となるように。そんな思いを込められたそうです。
実は『平家物語』も試してみたのですが、「きおん志やう志やのか年乃こ惠」のくずし字は「みを」によって「きおんしやしやのかねのこゑ」と認識され、「祇園精舎の鐘の声」のくずし字であることがイメージできました。
こんなふうに、学生時代に勉強した古典文学をくずし字で見ると改めて歴史を感じることができ、これは現代語でどう言うのかな、どんな意味かなと興味がわいてきます。国文学研究資料館のホームページには江戸時代の料理の本や算数の本なども公開されているので、それらを「みを」で読み解くのも楽しいのではないでしょうか。また、周りをよく見ると、老舗の看板や掛け軸、書道に心得がある人が書いた草書体の手紙など、現代社会の中でもくずし字や変体仮名が使われていることが多々あります。どこかでくずし字や変体仮名をみつけたら「みを」でチェック。読めて理解できると誰かに自慢したくなるはずです。