『言語処理学会第7回年次大会発表論文集』2001年3月
近年、平安時代の日本語で書かれた『古今和歌 集』や『源氏物語』を代表とする、いわゆる古典 語古典文学のテキストデータベースが数多く作成 され、CD-ROMやWeb で公開されるようになっ てきている。そこで、本研究ではそのための手法 として、文字を対象としたN-gram 統計を用いる 方法を提案し、それを実際の問題に応用し、その 手法の妥当性を検証した。N-gram を高速に算出 するためには、長尾・森[4] の方法を用いた。 用いるテキストデータとしては、『古今和歌集』 (梅沢本を底本として、漢字部分も平仮名にした もの)および『源氏物語』(大島本を底本としたも の。同様に平仮名にしたもの1 )を用いる。古典語 の場合、漢字仮名交じり文の表記が現代語のよう に均質なものとして体系化されていないため、表 記レベルでそのまま処理するよりも、いったん含 まれる漢字すべてを平仮名に開いて、仮名文字レ ベルに統一されたテキストデータを用いるのがよ い。これは、音声言語のレベルでは、モーラ(音韻的音節)を対象としてN-gram を採取すること に相当するものであり、言語分析の態度としても 妥当である。
本研究においては、文字を対象としたN-gram を2 グラムから10 数グラム2程度まで作品から採 取し、その採取した異なり文字列群を、他の作品 (あるいは同じ作品の別の個所)から採取した同様 な文字列群と相互比較して、文字列のマッチング により集合演算するという方法を用いた。 従来、古典語研究は、手作業で形態素解析され たデータについてKWICを作成するか、あるいは 単純な文字列検索を行うか、いずれにせよ限られ た解析方法で分析されてきた。いずれの方法も、 データの量や正確さに問題があり、また、掛詞や 古典語の複雑な慣用句などの分析には適していな かった。今回の提案はそのような問題点をある程 度解決できるものである。 2.2 古典語におけるN-gram 統計の状 態 まず文字(モーラ)でのN-gram の分布を調査 してみた結果である。『古今集』から見てみる。数 値は各グラム内の異なり文字列数、括弧内がグラ ムである。
67(1) 2664(2) 15879(3) 26860(4) 31792(5) 34088(6) 35126(7) 35707(8) 35951(9) 36063(10) 36117(11) 36151(12) 36177(13) 36187(14) 36193(15) 36196(16) 36199(17) 36202(18) 36204(19) 36205(20) 36206(21) 36207(22) 36208(23) 36209(24) 36210(25) 36210(26)
次に『源氏物語』の原写本表記(漢字がわずかに 混じった平仮名)の場合のN-gram の分布である。
663(1) 11897(2) 95378(3) 319835(4) 550652(5) 706041(6) 790657(7) 830940(8) 848089(9) 854855(10) 857493(11) 858494(12) 858889(13) 859047(14) 859113(15) 859142(16) 859158(17) 859165(18) 859168(19) 859170(20) 859171(21) 859172(22) 859173(23) 859174(24) 859175(25) 859176(26) 859177(27) 859178(28) 859179(29) 859180(30 859181(31) 859182(32) 859183(33) 859184(34) 859184(35)
最初に扱うのは、異なった作品同士の比較であ る。表現の差や作者の差などを調べることも可能 であるが、今回注目したいのは、引用関係の調査 である。古典文学のひとつの特色として、相互の 引用関係が複雑であり、それぞれの時代の作品は 前代の作品や、他者の作品を自由にその時代のコ ンテクストとして引用するということがある。散 文に和歌が引かれる場合、その修辞技巧を「引歌」 と呼ぶが3当然のことながら、後代の研究者が平安 時代のコンテクストを抽出するのは容易な作業で はない。例えば次のようなものが引歌である。 げに、この世は、短かめる命待つ間も、つ らき御心は見えぬべければ...(源氏・宿木・ 5-408) ありはてぬ命待つ間のほどばかり憂きこと繁 く思はずもがな(古今・雑下・965・平貞文)