『漢字文献情報処理研究』2001年10月(2号)pp.50-55
N-gram的な考え方は、従来から、言語処理、特に音声分析に広く用いられてきたが、近年、長尾真・森信介の両氏の開発された、任意の数の文字のN-gramをテキストから抽出するソフトウェアが発表されたことにより、語学・文学における応用に道が開かれるようになった 。筆者らも、このソフトウェアを用いて、平安時代の言語位相や引用などについての研究を行ってきた。しかし、この方法はまだ応用が開始されたばかりのものであり、言語テキストに文字単位のN-gram分析を用いることで、どのようなことが可能であるのかについては未だ充分に知られているとは言えない。そこで、本稿では、その可能性の範囲について概略を述べ、かつ、その一部の方法の新しい応用について述べてみたい。
長尾氏らによって開発されたN-gramの文字列分析の特徴は、これまで情報工学の中でN-gramといえば、単位の連続の出現確率などが主に問題になっていたのに対し、テキスト中から任意の長さの文字列をすべて抜き出してくることで、テキスト全体を総体的に見ることができるようになったことにある。きわめて人文科学に適した方法論と言える。 具体的に、例えば、次は、『源氏物語』『古今集』『後撰集』『拾遺集』に現れるすべての文字列をN-gram抽出ソフトウェアによって抜き出し、出現頻度とともに五十音順に対照したものの冒頭部分である。
あ ( genzi:13795 kokin:777 gosen:935 syui:908 ) あか ( genzi:493 kokin:30 gosen:32 syui:50 ) あかざ ( genzi:5 kokin:1 gosen:0 syui:1 ) あかざり ( genzi:4 kokin:1 gosen:0 syui:1 ) あかざりし ( genzi:3 kokin:1 gosen:0 syui:1 ) あかし ( genzi:137 kokin:2 gosen:1 syui:8 ) あかして ( genzi:8 kokin:1 gosen:0 syui:1 ) あかしの ( genzi:45 kokin:1 gosen:0 syui:1 ) あかしのう ( genzi:8 kokin:1 gosen:0 syui:1 ) あかしのうら ( genzi:8 kokin:1 gosen:0 syui:1 ) あかす ( genzi:8 kokin:1 gosen:3 syui:3 ) あかすら ( genzi:1 kokin:1 gosen:0 syui:1 ) あかすらむ ( genzi:1 kokin:1 gosen:0 syui:0 ) あかず ( genzi:92 kokin:11 gosen:6 syui:6 ) あかずと ( genzi:1 kokin:1 gosen:2 syui:0 ) あかずも ( genzi:2 kokin:3 gosen:0 syui:0 ) あかずもあ ( genzi:2 kokin:2 gosen:0 syui:0 ) あかずもある ( genzi:2 kokin:2 gosen:0 syui:0 ) あかずもあるか ( genzi:2 kokin:2 gosen:0 syui:0 ) あかずもあるかな ( genzi:2 kokin:2 gosen:0 syui:0 )
いわゆる単語ではなく、「あかずもあるかな」という独特の言い回しの文字列が、『源氏』に2例、『古今』に2例あることが、たちどころにわかるわけである。この手法によっては、その作品中のあらゆる文字列が切り出されてくるため、従来の単語索引では知ることのできなかった連語や言い回しのレベルでの傾向を、網羅的に知ることができる。このことは、人文科学研究にとっては、作品分析や言語分析における着眼点そのものを変え得る可能性を示唆する、画期的なことであると言えよう。 ここではすべて平仮名の形にした古典日本語を例にしたが、本特集の他の論考で示されているように、中国語などの漢字文献においてもこの方法は当然有効である。ただし、「文字」という言語単位の持つ言語学的な意味が言語によって異なるために、それぞれの言語ごとに1文字に対して、おおよそ次のような、異なった位置づけを与えておく必要がある。
・日本語(仮名) 1モーラ(拍)
・英語等 (ほぼ)1音素
・中国語 (ほぼ)1形態素
したがって、文字のN-gramを採取して調査する場合に、日本語では、いわゆる五十音のモーラの連続であるところの、単語や複合語や言い回しを調査することができる。中国語・漢文では形態素や単語の連続を採取したこととなるのであり、単語や複合語の調査の他、慣用句やよく出現する定型句といったものの調査に適している。このように文字のN-gramといっても言語学的には異なったものを見ていることになるので、他の言語のN-gram分析と比較する場合には留意しなくてはならない。 また言語自身の持つ類型的(typological)な違いも分析に影響する。日本語や中国語は、形態素が連接して長い連語を形成したりするし、また主語・目的語・述語が比較的近い位置に存在しており、N-gramで捉えられる連続的な単位の分布の中で各種の言語学的な問題が容易に捉えられると考えられる。 さらに、連続的な分布という点だけを見るならば、日本語については、形態素解析(単語への分解)を行ってから、その単語の連続としてのN-gramの分析を行う方が処理の効率もよいように考えられるかもしれない。しかし、日本語の場合、そもそも形態素解析自体に問題があり、どのような単位に分解するかによって大きくその結果が異なってくる。例えば「食べさせられてしまっていたかもしれないんだろうね」(長大な付属語列)や、「我が国」(古典語の場合の複合形式)などの形式を統一的に単位に分解することは容易ではない。この形態素解析の困難さは、最初から漢字という形態素単位に分解されている中国語や、文字表記の上で綴りがおおよそ形態素で分離されている英語などとは大きく異なった部分である。日本語のN-gram分析においては、あえて、モーラや文字の連続として扱ってしまうことで、余分なものは入ってしまうものの、分解しにくい複合語語形も、もれなく分析を行うことができるというメリットもあるのである。