近藤泰弘・近藤みゆき(2001) 平安時代古典語古典文学研究のためのN-gramを用いた解析手法

『言語処理学会第7回年次大会発表論文集』2001年3月

1 はじめに

近年、平安時代の日本語で書かれた『古今和歌集』や『源氏物語』を代表とする、いわゆる古典語古典文学のテキストデータベースが数多く作成され、CD-ROMやWeb で公開されるようになってきている。そこで、本研究ではそのための手法として、文字を対象としたN-gram 統計を用いる方法を提案し、それを実際の問題に応用し、その手法の妥当性を検証した。N-gram を高速に算出するためには、長尾・森[4] の方法を用いた。用いるテキストデータとしては、『古今和歌集』（梅沢本を底本として、漢字部分も平仮名にしたもの）および『源氏物語』（大島本を底本としたもの。同様に平仮名にしたもの1 ）を用いる。古典語の場合、漢字仮名交じり文の表記が現代語のように均質なものとして体系化されていないため、表記レベルでそのまま処理するよりも、いったん含まれる漢字すべてを平仮名に開いて、仮名文字レベルに統一されたテキストデータを用いるのがよい。これは、音声言語のレベルでは、モーラ（音韻的音節）を対象としてN-gram を採取することに相当するものであり、言語分析の態度としても妥当である。

2 N-gram 統計による古典語処理

2.1 方法の概要

本研究においては、文字を対象としたN-gram を2 グラムから10 数グラム2程度まで作品から採取し、その採取した異なり文字列群を、他の作品（あるいは同じ作品の別の個所）から採取した同様な文字列群と相互比較して、文字列のマッチングにより集合演算するという方法を用いた。従来、古典語研究は、手作業で形態素解析されたデータについてKWICを作成するか、あるいは単純な文字列検索を行うか、いずれにせよ限られた解析方法で分析されてきた。いずれの方法も、データの量や正確さに問題があり、また、掛詞や古典語の複雑な慣用句などの分析には適していなかった。今回の提案はそのような問題点をある程度解決できるものである。 2.2 古典語におけるN-gram 統計の状態まず文字（モーラ）でのN-gram の分布を調査してみた結果である。『古今集』から見てみる。数値は各グラム内の異なり文字列数、括弧内がグラムである。

67(1) 2664(2) 15879(3) 26860(4) 31792(5) 34088(6) 35126(7) 35707(8) 35951(9) 36063(10) 36117(11) 36151(12) 36177(13) 36187(14) 36193(15) 36196(16) 36199(17) 36202(18) 36204(19) 36205(20) 36206(21) 36207(22) 36208(23) 36209(24) 36210(25) 36210(26)

次に『源氏物語』の原写本表記（漢字がわずかに混じった平仮名）の場合のN-gram の分布である。

663(1) 11897(2) 95378(3) 319835(4) 550652(5) 706041(6) 790657(7) 830940(8) 848089(9) 854855(10) 857493(11) 858494(12) 858889(13) 859047(14) 859113(15) 859142(16) 859158(17) 859165(18) 859168(19) 859170(20) 859171(21) 859172(22) 859173(23) 859174(24) 859175(25) 859176(26) 859177(27) 859178(28) 859179(29) 859180(30 859181(31) 859182(32) 859183(33) 859184(34) 859184(35)

3 『源氏物語』中の『古今和歌集』からの「引歌」の抽出

3.1 異なった作品の比較

最初に扱うのは、異なった作品同士の比較である。表現の差や作者の差などを調べることも可能であるが、今回注目したいのは、引用関係の調査である。古典文学のひとつの特色として、相互の引用関係が複雑であり、それぞれの時代の作品は前代の作品や、他者の作品を自由にその時代のコンテクストとして引用するということがある。散文に和歌が引かれる場合、その修辞技巧を「引歌」と呼ぶが3当然のことながら、後代の研究者が平安時代のコンテクストを抽出するのは容易な作業ではない。例えば次のようなものが引歌である。げに、この世は、短かめる命待つ間も、つらき御心は見えぬべければ...（源氏・宿木・ 5-408）ありはてぬ命待つ間のほどばかり憂きこと繁く思はずもがな（古今・雑下・965・平貞文）

続きは以下のダウンロードリンクから

全文ファイルダウンロード