公募プロジェクト
古典中国語・近代日本語・近代英語に
またがる係り受けコーパス
Member
2020年3月
- 安岡 孝一
- 人文科学研究所附属東アジア人文情報学研究センター
Overview
研究目的
古典中国語(漢文)が、どのような言語構造を持っているのかを明らかにすべく、申請代表者が主催する人文科学研究所共同研究班「東アジア古典文献コーパスの実証研究」ではUniversal Dependenciesにもとづく係り受けコーパスを研究・製作している。Universal Dependenciesは、カレル大学のLINDAT/CLARINを中心とした多言語横断コーパスで、2019年5月に申請代表者のグループが参加することにより、83の言語にまたがる巨大なデジタル・コーパスとなった。
このUniversal Dependenciesにもとづき、白文(古典中国語)と読み下し文(近代日本語)と英訳文(近代英語)の比較研究をおこないたい。白文については、すでに申請代表者のグループが四書(『孟子』『論語』『大學』『中庸』)のデジタル・コーパスを公開しており、これをそのまま流用する。問題は、読み下し文と英訳文である。デジタル・コーパスは、公開してこそ意味がある(と申請代表者は考えているし、エビデンス・ベースという観点からも必須である)ので、著作権が切れている読み下し文・英訳文を用いる必要がある。
四書の英訳文については、James Leggeの『The Chinese Classics』(1893)が、有名であると同時に著作権が切れている。この英訳文をデジタル化し、さらにUDPipe(カレル大学製のUniversal Dependencies深層学習エンジン)でデジタル・コーパス化すれば、90%程度は自動処理が可能だと考えられる。残る処理ミスについては、人手で修正をおこなうことになる。
一方、四書の読み下し文は『國譯漢文大成』(1922)が、有名であると同時に著作権が切れている。ただし、近代日本語は旧字旧仮名であり、そのままではUDPipeが使えない。とりあえず、現在考えている方策としては、旧仮名口語UniDic(国立国語研究所が公開中)を用いて形態素解析をおこなったのち、申請代表者の製作した変換エンジンで品詞変換をおこない、さらに現代日本語を学習させたUDPipeで係り受け解析をおこなう、という3段階の処理手法を目している。ただし、この手法で解析精度がどの程度になるかは未知数で、人手での修正がかなり必要になる可能性が高い。
これらの作業の後、以下のような係り受け平行コーパスを公開する。今後の古典中国語や近代日本語の言語研究に、必ずや資するものと信じる。