近藤みゆき(1999) 平安時代和歌資料における特殊語彙抽出についての計量的研究と利用ツールの公開

文部省科学研究費補助金1998年度研究成果報告書『特定領域研究　人文科学とコンピューターコンピュータ支援による人文科学研究の推進ー』（1999年3月）pp.68-77.

1. 古今和歌集の歌語と表現のジェンダー性について

1.1 これまでの研究と98年度の研究概要

平安和歌研究の課題の一つに、和歌表現特有の語彙―いわゆる歌語、を対象とした研究がある。平安和歌の歌語は、古今和歌集和歌における語彙を一つの美的規範としながら、三代集時代、院政期、平安末～新古今時代と、画期ごとに、万葉集や漢文訓読語・俗語・物語の用語など外部からの語彙を取り込みつつ、活性化し史的展開を遂げていく。ゆえに古今的歌語がどのように継承されたか、また、どのような歌語が新たに開拓されたかを、表現を開拓した歌人群、史的背景とあわせてあきらかにする事は和歌研究においてきわめて重要な作業といえる。和歌研究の分野では、歌語。表現の研究が盛んであるにもかかわらず、データベース化によった網羅的な表現研究は、未だ行われていない。平安和歌資料を、歌語をはじめとする表現の分析に適した形でデータベース化する方法を検討し、また具体的な分析結果を提示することは、和歌研究に大きな進展をもたらすことになると考えられる。このような観点から、97年度には『古今和歌六帖』を分析の対象とした。同作品は、平安中期の成立、作歌の手引書として作られた類題和歌集で、総歌数は4, 494首(桂宮本)を数える。平安中期の特殊歌語の宝庫と言ってよい。古今六帖全歌に形態素解析タグを付してこれをデータベース化し、総語彙を網羅するとともに出現頻度数でソートして、最も特殊な語彙として出現頻度数1の語彙2295語を得て、内容が万葉語、古歌や伝承歌の用語、古今・後撰の一度語や先行歌人の特異用語、歌謡での用語など、様々な位相の語彙の集合体であることを明らかにした。またそれら語彙の、同時代私家集における使用数の分布を調べ、六帖語彙が、新しい歌語として、同時代歌人に受容されていった実態を明らかにした。また同じく97年度には、『相模集』を対象として、データベースを作成した。総歌数は557首であり、平安時代の代表的女流歌人の私家集である。これは「じんもんこんデータベース」の一環として、CD― ROMにより刊行した。詳細は、当該CD―ROMを参照されたい。こうした六帖特殊歌語の研究とデータベース作成の研究とあわせて、今年度は新たに、和歌表現・和歌語彙におけるジェンダー性の分析というテーマに着手した。和歌という表現形式の特質の一つに、それが詠歌主体の性―男性の歌であるのか、女性の歌であるのか―を大きく反映する文学形態であるということがある。折口信夫以来、多くの論や研究の続いている「女歌」論は、この問題を扱った研究を代表するものだが、そうした文芸論・文学論とあわせて、性差が、語彙や用語にどう現れているのか、具体的・数量的に明らかにしていく研究が、一方で必要であると考えられる。「女歌」論が集中してきた恋歌だけではなく、和歌全般に範囲を広げて、男の歌と女の歌の用語を計量的に比較し、平安和歌における、男性的な言葉の型・女性的な言葉の型を明らかにしたい。

1.2 nグラム統計処理と長尾・森プログラム

それでは、王朝和歌という言語表現を対象として、語彙や表現のジェンダー性を認定するには、どのような方法があるだろうか。古代の雅語に対しては、現代の研究者の内省はほとんど通用しないと言つて良い。ここでは大量データの計量分析を、内省に匹敵する有力な手段として、王朝和歌の言語表現から、和歌におけるジェンダーを反映した用語・語彙を出来るだけ多く抽出する方法を考えたい。まず男性歌人。女性歌人それぞれの性別に語彙・句法などを抽出し、それぞれが多く用いている語彙や表現、また一方が他方に比して多く用いている語彙や表現を、網羅的・計量的に抽出することが必要である。そしてその場合の言語処理方法として、ここで注目したいのが、京都大学の長尾真・森信介両氏の開発した日本語語句の自動抽出プログラムである(以下、長尾・森プログラムと称する)。そもそもこのプログラムはnグラム統計(シヤノンの情報理論において展開された言語分析のための理論・テキスト中で任意の長さの文字列を抽出し、その出現頻度を求める)を大規模テキストに対して行うためのプログラムとして開発されたものであるが、nグラム統計の性質上、そのテキスト上で、高頻度に出現する文字列や、逆に、きわめてまれに出現する文字列などを求めることができる。両氏の研究では、現代語の大量データの分析結果についての例が報告されているが、本研究ではこれを平安時代和歌資料のデータ分析に応用してみることとする。なお、nグラム統計の理論的側面および当該プログラムの内容については、次の参考文献を参照されたい。・Claude E.Shannon & Warren Weaver, The Mathe-matical Thery Of Communication, The University Of Illinois Press,1949 ・長尾員・森信介、「大規模日本語テキストのnグラム統計の作り方と語句の自動抽出」(自然言語処理 96-1、1993) この長尾・森プログラムによるnグラムの統計を、言語処理に利用すると、次のような多くのメリットがある。･････

続きは以下のダウンロードリンクから

全文ファイルダウンロード