近藤みゆき(2001)　n-gram統計による語形の抽出と複合語─平安時代語の分析から─

『日本語学』2001年8月（20巻9号）pp.79-89.

１　はじめに

古典語にせよ、現代語にせよ、日本語において、一語をどう認定するかは、その基準の立て方にも様々な立場があり、従来から多くの研究がなされてきた。そもそも単位をめぐる基準からして、一通りではない。どのような単位をもって単語と認めるかと言うこと自体難問も多く、たとえば国語研究所による各種の研究において、α単位・β単位のように二種の異なった単位が提案されてきたこと（注1）なども、その難しさをよく物語っていよう。こうした、日本語の単語認定の難しさを、端的に反映しているのが複合語である。複合語をめぐっては、これまで、1．形態論的な観点（注２）、2．音韻論的な観点（注3）、　3．統語論的な観点（注4）、　4．意味論的な観点（注5）のおよそ四つの観点から、定義と分析がなされている。外国語との比較対照も進められており（注6）、縦横に論じ尽くされているようではあるのだが、旧来から指摘されている、索引や辞書語に立項する際の複合語認定のあいまいさや（注7）、単純語や慣用句や文との境界が不明確な場合について（注8）など、必ずしも解明されたとはいえない問題が、依然残されているのも事実である。それは一つには、理論と実態のかみあいの難しさによるところもあるのであって、また複合語の認定というものが、主に研究者の内省に依ってなされてきた事と無関係ではあるまい。索引・辞書語の複合語の立項の揺れなどには、各編纂者の、おのおのの学説も含めての内省の違いの反映と言い換えることが出来る点も少なくない。文法や語彙・語法研究における内省の重要性はもとより疑うべくもないが、現代語と異なり、内省には限界のある古典語を対象に、複合語の語形や意味論的実態を抽出・分析しようとする場合や、社会生活の中で、日々、派生や複合によって語の新造が繰り返されていくあり方を総合的に考察しようとする時、言語現象のより正確な把握のために、内省とあわせて、コーパスを網羅調査し、用法に即して、実態としての複合語を客観的に取り出す試みが検討される試みも必要となるのではないかと思われる。

本稿では、以上のような観点から、平安時代の文学資料を対象に、統計処理の手法を用いた複合語のコーパスからの抽出と分析の方法を提案し、具体的結果から得られる知見の一端を示してみたい。

2 　日本語の語構成と正規文法的規則

まず、従来の複合語研究ではほとんど言及されてこなかったが、コーパス上で統計処理によりながら日本語の単語や語構成について見ていくときに特に明確となる、日本語の語構成についての性格を指摘しておきたい。それは、日本語の語構成に内在する正規文法的規則という点である。正規文法とは、別名3型文法とも言われるが、形式言語の分類のひとつであり、遠く離れた要素同士が呼応するいわゆる句構造文法（2型文法）とは異なり、基本的に、ある要素の直後に次の要素が来るという単純な連接からなる文法規則である。この点から見ると、日本語の語構成には、次の二つの側面において、正規文法的規則が内在していると考えられる。　

まず第一が、「走りだす」「目じるし」「巣づくり」といった自立語どうしが接合した複合語の場合や、「菜の花」「憎まれっ子」「取られぞん」などの自立語に助詞や助動詞が接合したものの場合である。これらの複合規則に文の文法構造に似たものが見られ、それは基本的にはいわゆる句構造文法（2型文法）によることが奥津敬一郎などによって既に指摘されている（注9）。実際に、各要素が頭から順に接合しないもの（句構造文法の樹形図では右分かれ構造となる）の例として「(おお（（やま）（ざくら））)」などの例があげられるのであるが、実はこれは生物の名称などに多い例外的な構造である。基本的には補足語に述語が単純に接合したり（「山登り」「大殿ごもる」）、自立語に付属語が順に接合したり（「生まれながらの」「何としても」）といった正規文法的規則がその大半に見られ、それで多くがカバーできるということもまた指摘できるだろう。日本語の助動詞の連接については、「国語の活用形は、係結による結びの拘束を除けば直後にどんな言語要素が来るかによって決定される。これを言ひ替えると、或活用形が現れればその直後に来得る言語要素の範囲が決まるといふ事になる」として、日本語の活用形や文法の性格の問題として理論化した水谷静夫の3型文法（正規文法）の論があるが（注10）、その指摘は語構成にも及ぼし得るものと考られるのである。　

次に第二の点として、漢字同士が接合して（「花」＋「道」で「花道」、「日本」＋「製」で「日本製」、など）新たな単語を形成するという問題である。これは漢字の表語（形態素）文字としての性格から、文字と文字の接合によって新たな単語を形成できるということに原因すると思われる。新聞などによく見られる「対＋米＋交渉」「省＋電力＋化＋努力」のような漢字の合成によるいわゆる「臨時一語」などはその典型であるが、ここにも、ある字や要素の次にどのような字や要素が接合するかという比較的単純な正規文法的規則が多くの場合に見られる。後者の点は、漢字が文字単位で連接することが、複合語の形成に大きな役割を果していることを意味している。　以上のように、複合語の形成ということの理論的基盤の一つとして、正規文法（3型文法）の規則を考えなくてはならないことは明かであると思われるが、助詞・助動詞の連接に限っても、先に触れた水谷の論以後、実状としては、あまりこの方面の研究には進展がなかった。それは、水谷の研究がそうであるように、文字列や単語の正規的な構造を取り扱っていくには、手法として計算機を用いた統計処理や考え方がかなりの程度必要であるのに対し、従来そのツールやデータに制約や限界が大きかったことが一因であったに違いない。　

ところが、近年、計算機の高速化・大容量化によって、従来より大きな記憶装置を使うことが可能となり、そうした面での制約が解消される中から、日本語語構成の正規的な構造の分析に新展開をもたらし得る画期的な手法が開発された。長尾眞・森信介「大規模日本語テキストのｎグラム統計の作り方と語句の自動抽出」（注11）がそれである。次に、この手法の概要を示し、古典語分析への適用について述べていこう。

続きは以下のダウンロードリンクから

全文ファイルダウンロード