ほとんど0円大学 おとなも大学を使っっちゃおう

  • date:2024.9.24
  • author:ほんま あき

私たちの話し言葉は本当に変わってきたのか? 『日本語日常会話コーパス』の開発者、国立国語研究所の小磯先生に聞いてみた

今回お話を伺った研究者

小磯 花絵

国立国語研究所 副所長・教授

<今回お話を伺った研究者>

小磯 花絵 国立国語研究所 副所長・教授

千葉大学および同大学大学院を経て、ATR知能映像通信研究所で研究をしながら奈良先端科学技術大学大学院で博士号(理学)取得。1998年から国立国語研究所へ。『日本語話し言葉コーパス』や『現代日本語書き言葉均衡コーパス』『日本語日常会話コーパス』などの開発に携わる。著書に『言語コミュニケーションの多様性』(共著、くろしお出版)、『話し言葉コーパス-設計と構築-』(共著、朝倉書店)など。

あなたは「最近の若者は自分たちとは話し方が違うな」と感じたことがあるだろうか。私たちの話し言葉は年齢とともに、あるいは時代とともに変化している。その実態を探るのに役立つが、国立国語研究所が2022年3月に公開した『日本語日常会話コーパス』だ。コーパスとはあまり耳慣れない言葉だが、一体何なのか。どんな役に立つのか。開発に携わった小磯花絵先生に話を伺った。

コーパスとは研究のために集められた大規模な言葉のデータベース

そもそもコーパスとはどういうものだろうか。小磯先生によると「実際に使われている書き言葉や話し言葉を大量かつ体系的に集め、品詞情報など研究に必要な情報を付加して、さまざまな検索・分析ができるようにされた言葉のデータベース」とのこと。言葉の研究には大量の言葉を蓄積する必要があるため、大学や国が中心となって、世界中でさまざまなコーパスがつくられている。

 

小磯先生の所属する国立国語研究所でも、ここ数年で『日本語日常会話コーパス』の他、『昭和話し言葉コーパス』『日本語歴史コーパス』など、さまざまなコーパスをつくっている。書き言葉については奈良時代から現代にいたるまで、日本語のデータを幅広く大量に蓄積しているのだ。例えば、『日本語日常会話コーパス』で「矢張り」と入力すると、「やはり」「やっぱり」「やっぱし」「やっぱ」などに変化した言葉が出てきて、品詞情報(この場合は副詞)や使われている会話における前後の文脈、話者の情報などがわかり、音声で確認することもできる。「例えば、『やっぱ』という言葉はどんな年齢・性別の人が使う傾向にあるかを調べるなど、いろいろな研究に使うことができます」と小磯先生は説明してくれた。

インタビューに応じる小磯先生。今回はオンラインで対応してもらった

 

ちなみに、イギリスでは1959年から書き言葉と話し言葉を約50万語ずつ集め、紙のカードで整理していたという。国立国語研究所でも1950年代から話し言葉の調査を行っていたそうで、大きなオープンリールの機材を肩からかけてインタビューする白黒写真が残っている。60巻、約40時間分のテープに日常会話と比較対象用のニュースや講義などの音声を録音し、言葉を書き出し、線や記号でイントネーションや音調などを細かく記されているという。

 

今のコーパスは電子化が基本だが、1950年といえば超アナログ。パソコンはもちろん、ワープロもなく、今のように簡単にコピーもできない。そんな中で現在のコーパスに劣らないほどの情報量を盛り込んだデータベースをつくっていたとは。調査に携わった研究者たちの苦労が偲ばれるとともに、とてつもない熱意が伝わってくる。この研究成果は1955年に『談話語の実態』として国立国語研究所の報告書にまとめられている。

コーパスを比べることで言葉の変化や実態が見えてくる

「こうして情報が蓄積されたコーパスは、公開して皆が研究に使えるようにするのが重要なのですが、この1950年代の資料は研究所の中で使われるだけで公開には至っていませんでした。日本において、コーパスを共有すべきという流れになったのは1980年代後半から1990年代になってからです」と小磯先生。背景にはコンピュータの性能が上がったこともある。ちょうどイギリスで1億語規模のコーパスが誕生した時代でもあった。

 

小磯先生は、1998年に国立国語研究所に入って間もないころ、講演の音声記録を中心とした『日本語話し言葉コーパス』の開発に携わった。音声認識の専門家などとの共同研究で、一般の人や研究者が講演などで話す音声をもとにしたのだ。このプロジェクトによって音声認識の精度が飛躍的にあがったという。のちの国会議事録の自動テキスト化などにも影響するような、コーパスを活用した音声認識研究の嚆矢で、「コーパスは実用につながると認識されたきっかけでした」と小磯先生は話す。また、日本でも約1億語書き言葉コーパスをつくろうと、書籍や新聞、雑誌、白書など幅広い分野の言葉をバランスよく集めた『現代日本語書き言葉均衡コーパス』の構築にも関わった。

 

「講演を中心とした話し言葉のコーパスができ、書き言葉のコーパスも一段落しました。ただ、やはり会話がないよね、という話になりました。当時、会話を対象とするコーパスはないわけではなかったのですが、音声が公開されていなかったり、話者が偏っていたりしていたのです」と小磯先生は振り返る。そこで、さまざまな場面における自然な日常会話をバランスよく収めた『日本語日常会話コーパス』の開発に取りかかった。

 

「日常生活の中で私たちがどういう言葉を使っているか。音声と動画を記録して公開することで、単に言葉だけでなく、対面でのコミュニケーションでの身ぶり手ぶりや話者の配置などを含めて総合的に研究することができます」

 

コーパスに利用する音声と動画の収集は、一般から募った40名によって主に行われた。3ヵ月間機材を貸し出しして、日常の会話を収録してもらい、家族での食事、子どもの宿題を見ているところ、ママ友とのランチ、帰省先の実家、アルバイト先、習字教室など、さまざまな場面での会話を収録してもらったという。録画されていると思うと緊張したりして自然な会話にならないかもと疑問も出そうだが、どうなのだろうか。

音声と動画の収録シーンの一部(小磯先生の資料より)

 

「圧迫感がないよう小型カメラを使用しました。また、収録期間が3ヵ月あるため、だんだんカメラのある生活に慣れてくることがほとんどです」とのこと。撮られていること自体が日常になっているのが大切なようだ。

 

こうして約200時間の会話を収めた『日本語日常会話コーパス』は2022年に本公開された。小磯先生は「日常の言葉はこんなにも違うのかと衝撃を受けました。大規模なコーパスがないとわからないことだと思いました」と話す。その事例として教えてくれたのが、先にも例にあげた「矢張り」という言葉。50時間分をまとめた段階では、「やっぱり」「やっぱ」が半数ずつで、「やはり」が一度も出てこなかったという。

 

「最終的に200時間分になったときに、雑談で3000件ほどある『矢張り』の中で『やはり』はわずか20件ほど出たくらい。こんなにも日常では『やはり』を使わないのかと。そこで、改めて書き言葉や講演などの話し言葉と比べてみました」

「書き言葉」「独話」「日常会話」と3種のコーパスで、「やはり」とその関連語を分析した結果(小磯先生提供)

 

すると、政府の刊行物である白書の中では『やっぱ』も『やっぱり』も使われず、新聞ではコラムなどで少し『やっぱり』が使われ、ブログでは『やっぱ』も『やっぱり』も登場。人前で話す学会発表では『やっぱ』は一切なし。一般の方がカジュアルに体験談を話す模擬講演では『やっぱ』も多いが、『やはり』も相当数使われていることがわかった。何となくオフィシャルな場面で「やっぱ」は使わないイメージはあったとしても、もしかすると感覚的なもので実際は違うかもしれないと思ってしまう。しかし、コーパスによって感覚的なものではないことが明らかになったのだ。

 

小磯先生は1950年代から国語研究所で集められた音声資料も再編し、2020年に『昭和話し言葉コーパス』として電子化して音声とともに公開した。そのため、当時の言葉の使われ方と比べることができる。さまざまなコーパスを活用し比べることで、多様な角度から言葉の経年変化や年齢性別による違いなどを調べることができる。

言語だけでなく、医療やAIなどさまざまな分野で応用も

「『日本語日常会話コーパス』を含め、いろいろな種類の大規模なコーパスが揃ったことによって、コーパスを使った定量的な分析で今後明らかにできることも多いのでは」とコーパスの可能性を話す。また、コーパスは公開することに意味があるとも話した。国立国語研究所でも代表的なコーパスを公開しており、登録すれば誰でも使用できる。

※無料版は機能を限定して公開。国立国語研究所 言語資源開発センター「コーパス一覧」https://clrd.ninjal.ac.jp/

 

「研究には再現性が重要です。コーパスを使って同じような条件で分析して同じ結果が出れば、研究の正しさを保証することができます。コーパスに限らず、現在はどの分野でも研究データを公開することで研究不正を防ぐとともに、研究を前進させることに資するといわれています。また、いろいろなデータを組み合わることでより対象領域を広げて研究ができるようになってきているので、できるだけデータは公開する流れになっています」

 

実際に、小磯先生も研究領域は言語だけに留まらず、他分野との共同研究もすでに進んでいる。

「『日本語日常会話コーパス』をつくって公開したことによって、私たちと同じ分野だけでなく、思いもよらなかった分野からお声がけをいただきました。例えば医学分野では、自閉スペクトラム症、コミュニケーション障害といわれる人たちのコーパスがあれば、より多くのことがわかるのではないかと考えています。基礎研究に留まらず、自分の専門がダイレクトに社会に役立つ可能性があると感慨深く、とても興味深く研究を進めているところです」

 

もともとコーパスは、データを扱うという性質上から情報処理分野との接点が深く、特に話し言葉を集めたコーパスの開発には音声認識の技術が関わっていたり、AIが自然な言葉を話せるようにしたりと、情報処理分野での応用が行われてきた。「言語分野や情報処理分野だけでなく、まだまだ可能性があると気づかされました。そうした新たな分野にも踏み込んでいきたい」と小磯先生。高度な言葉を話すのは人間だけといわれるが、人間にとって言葉は非常に重要な要素だ。考えるにも何をするにも言葉がなくてははじまらない。だからこそ、言葉を核にした研究によって、今後さらに思わぬ発見や新しい技術が生まれてくるかもしれない。

RANKINGー 人気記事 ー

  1. Rank1

  2. Rank2

  3. Rank3

  4. Rank4

  5. Rank5

CATEGORYー 新着カテゴリ ー

PICKUPー 注目記事 ー

BOOKS ほとゼロ関連書籍

50歳からの大学案内 関西編

大学で学ぶ50歳以上の方たちのロングインタビューと、社会人向け教育プログラムの解説などをまとめた、おとなのための大学ガイド。

BOOKぴあで購入

楽しい大学に出会う本

大人や子どもが楽しめる首都圏の大学の施設やレストラン、教育プログラムなどを紹介したガイドブック。

Amazonで購入

関西の大学を楽しむ本

関西の大学の一般の方に向けた取り組みや、美味しい学食などを紹介したガイド本。

Amazonで購入
年齢不問! サービス満点!! - 1000%大学活用術

年齢不問! サービス満点!!
1000%大学活用術

子育て層も社会人もシルバーも、学び&遊び尽くすためのマル得ガイド。

Amazonで購入
定年進学のすすめ―第二の人生を充実させる大学利用法

定年進学のすすめ―
第二の人生を充実させる …

私は、こうして第二の人生を見つけた!体験者が語る大学の魅力。

Amazonで購入

フツーな大学生のアナタへ
- 大学生活を100倍エキサイティングにした12人のメッセージ

学生生活を楽しく充実させるには? その答えを見つけた大学生達のエールが満載。入学したら最初に読んでほしい本。

Amazonで購入
アートとデザインを楽しむ京都本 (えるまがMOOK)

アートとデザインを楽しむ
京都本by京都造形芸術大学 (エルマガMOOK)

京都の美術館・ギャラリー・寺・カフェなどのガイド本。

Amazonで購入

PAGE TOP