Problems and Potential of the Key Word Index
for Adjunct Words in Genji - Monogatari and
Its Quantitative Analysis
上田英代(古典総合研究所)
村上征勝(統計数理研究所/総合研究大学院大学)
今西祐一郎(九州大学)
樺島忠夫(神戸学院大学)
藤田真理(東電学院)
上田裕一(もとぶ野毛病院)
2-1 該当語の選定
該当語は、『大成索引篇(助詞・助動詞)』の見出し項目の語すべてと、若干の助詞と接尾語を加えた。その理由は、接尾語「ども」が、本文中で、「名詞+ども」の形でなく、単独で名詞的な働きをしているにもかかわらず、『大成索引篇(一般語彙)』にも(助詞・助動詞)にも掲出されていないため、『付属語篇』では、該当語として検索しうるようにしたからであるが、単独の「ども」だけを、接尾語として掲出することを避け、「ども」の項目をたて「名詞+ども」の用例も同時に掲出した。
「ども」の他にも、「くそ」「こそ」「ごと」「たち」「ばら」「み」「ら」等、同様の接尾語も該当語として掲出した。さらに「ひるつかた」の「つ」、「しるべしがてら」の「がてら」、「かたはしづつ」の「づつ」等も『大成索引篇』では、掲出していないため『付属語篇』で掲出した。
2-2 該当語の品詞認定について
付属語の認定は、概ね『大成索引篇(助詞・助動詞)』に従ったが、『大成索引篇(一般語彙)』と解釈の相違等によって、語認定が異なる時は、できる限り『大成索引篇(一般語彙)』に従った。又、『大成索引篇(助詞・助動詞)』では、異文に従って校訂した項目下に語を提出している場合もあるが、『付属語篇』では『大成校異篇』本文どおりの項目下に掲出した。
『付属語篇』では、本文中の付属語は、すべて掲出することを目的とした。それ故「して」「ものか」「ものから」「ものゆゑ」「ものの」等の語は、『大成索引篇(一般語彙)』で[連語]とし、自立語として『自立語篇』にも掲出したが、『索引篇(助詞・助動詞)』でもこれらの語を掲出していることから、『付属語篇』でも[助詞]として掲出することにした。また「からに」「ごとに」等「助詞+助詞」や、「接尾+助詞」で、[連語]として『自立語篇』に、既に掲出している語でも『付属語篇』に掲出した。
このほか、名詞中の助詞、形容動詞語尾、副詞、接続詞中の助詞等、自立語中の付属語及び補助動詞は、すべて掲出した。
自立語篇 | 付属語篇 |
---|---|
して[連語] として[連語] (なよなよと)[副詞]+し[動詞サ変]+て[助詞] てふ[連語] ものか[連語] ものかは[連語] ものから[連語] ものの[連語] ものゆゑ[連語] ものを[連語] ごとに[連語] からに[連語] | して[助詞] と[助詞]/して[助詞] して[助詞] てふ[連語] ものか[助詞] ものかは[助詞] ものから[助詞] ものの[助詞] ものゆゑ[助詞] ものを[助詞] ごと[接尾]/に[助詞] から[助詞]/に[助詞] |
きこゆ[動補下二] たうぶ[補動上一] たてまつる[動補四] たてまつれ[動補] たまふ[動補四] たまふ[動補下二] はべり[動補ラ変] まうす[動補四] |
きこゆ[補動下二] たうぶ[補動上一] たてまつる[補動四] たてまつれ[補動] たまふ[補動四] たまふ[補動下二] はべり[補動ラ変] まうす[補動四] |
とかく[副詞] いまは[名詞] | と[助詞]/かく[副詞] いま[名副]/は[助詞] |
かくて[副詞] さらに[副詞] ままに[副詞] |
かく[副詞]/て[助詞] に[助詞]<さらに[副詞]> に[助動]<さらなり[形動語尾]> に[助詞]<ままに[副詞]> に[助動]<ままなり[形動語尾]> |
表記 | |
---|---|
か て と とも なむ に ぬ は |
か[助詞],が[助詞] て[助詞],で[助詞],て[助動](未)(用),て[名詞] と[助詞],ど[助詞] とも[助詞],ども[助詞],と[助詞]/も[助詞] なむ[係助],[終助],な[助動](未)/む[助動](終) に[助詞],に[助動,形動語尾],[助動](用) ぬ[助動](終)<完了>,ぬ[助動](体)<打消> は[助詞],ば[助詞] |
「ず」「じ」「む」「らむ」「けむ」「らし」等、連用形と終止形、終止形と連体形など活用形が、同形のものは適宜定めた。
2-3 語の配列
『大成』本文中には付属語が、16万余語あり、自立語中の付属語も含めると18万語以上にもなるため、単純に出現順に配列したのでは、付属語に対する多様な研究目的には、対応しきれないため、各付属語の特性が明確になるよう配慮し、配列には細かい工夫を施した。
この索引では、各付属語の接続関係が一覧できることが重要なので、後接語が[自立語]か[付属語]で最初に大きく分けた。さらに各品詞ごとに該当語の接続関係を、一覧しやすくするため、前接語の品詞別に活用順に分けた。そうすることにより、助詞「ば」の前接語が、同じ品詞であっても活用形が異なれば意味が異なることを容易に判別できる。
また該当語が、助詞「の」などのとき、後接[自立語]で、前接語を品詞別にしても名詞はかなり大きなグループとなってしまう。
もう少し接続関係をはっきりさせる必要性から、上記の配列をしたうえで、五十音順に配列した。
以上の優先順位で配列の後も、前接語に同一語が複数ある時は、出現順に配列した。
前文脈 | 1,品詞別 (活用語は活用順) 2,五十音順 (活用語は終止形の) 3,出現順 |
該 当 語 |
自 立 語 |
後文脈 |
前文脈 | 1,品詞別 (活用語は活用順) 2,五十音順 (活用語は終止形の) 3,出現順 |
該 当 語 |
付 属 語 ・ 五 十 音 順 |
後文脈 |
日本語文献を数量分析する際には、前述したような語の分割単位や、品詞認定の揺れに留意しなければならない。たとえば、品詞の度数や、割合による分析を行う際は、「に」等、助詞とも助動詞ともなりうる場合は、品詞認定に統一性をとり、どちらか一方に定めて分析すれば問題ないが、他作品との比較を行う際は、同じ基準で語分割や品詞認定ができているかどうか厳密な点検が必要である。
語分割する際の単位認定は、分析する目的にあわせて行う必要がある。あまり細かく分割してしまうと、各作品特有の複合語の情報が失われてしまうので、使用語彙の頻度によって複数作品の文体を比較する時等は、作品間の差があまり表れなくなってしまう。しかし、各作品がどのように語を複合しているのかを調査するときは、大切な情報となる。
語の分割単位をどこまで細かくするかは、さらに厳密な検討が必要である。今回、『付属語篇』作成にあたり、自立語中の付属語もすべて抽出したことにより、形態素レベルまで分割することは容易である。作品の各形態素による複合語の構成を詳しく分析することによって、作者の使用語彙の特徴が一層明らかになり、興味ある成果が得られるであろう。
この索引では、語構成の調査を少しでも容易にするため、自立語中の付属語及び補助動詞はすべて掲出し、別冊に添付された数表では自立語中の付属語もすべて数えた。今後データベースを作成する際には、より精密な数量分析が行えることを目指すべきで、語の分割単位もいくとおりか用意し、どちらの単位でも数量分析しうることが重要である。著者等のように、ここまでの語分割と集計を行ったデータベースはあまりみられず、形態素解析の分野においてもさらに学際的研究が必要とされる。