「源氏物語・語彙用例総索引」について>

                              統計数理研究所 村上 征勝
                                      上田 英代

  1. 作成の目的
     用語索引といわれるものは、欧米の諸国に於いては早くからconcordanceとしてシェークスピアやダンテの作品群などについて作成されている。日本に於いてはまだ数は少なく、一部の作品についてしか作成されていない。その主な理由は日本語の文章が単語毎に分割されていないため、まず単語毎に分割する作業をしなければならないという点にある。(手作業で行うにしろ、コンピュータで行うにしろ、単語毎に分割されていなければ用語索引は作成しにくい。)しかし、このような繁雑な作業段階をいくつか経なければならないとしても、用語索引の利用範囲は幅広く作成する価値は十分ある。
     ある語の前後の文脈を切りとって一覧できれば、その語の用法が一目瞭然であり更に便利である。現在作成中の『源氏物語大成』を利用した用語索引を例にとると、本文中の表記が異なっていても同義語として、1〜54帖までの出現順に並んでいるから、同一語にどのような表記の違いがあるかがすぐにわかる。例えば、「みきの大殿」「右のおほとの」「右の大殿」「右の大との」「右のおほ殿」「右大との」などである。こうした表記の違いを精密に調べると底本が異なる系統のものだということがわかるかもしれない。又「たまふ」という語一つをとってみても「四段動詞」「下二段動詞」「補助動詞」とあり、これに各活用形と音便形があり、表記も「たまふ」「給ふ」「給」「賜ふ」「賜」とあり、送り仮名もあるものとないものがあるので、これらを前後関係も含めて調査しようとすると用語索引が不可欠のものとなる。又⊥撃笊∮撃№d方や、出現頻度の高い語の用法や、反対語の用法などの調査にも便利である。
     その他、用語索引の利用法は数多く、「源氏物語」の語彙用例索引の作成は様々な面で意義深く、今後各研究に大いに役立つものと思われる。

  2. 作成上の問題
     今回の用語索引は、一昨年完成した『源氏物語大成』の品詞情報付きフルテキストデータベース(約38万語)をもとにしている。このデータベースは『大成』の索引を語分割の基本として、すべての語に品詞情報が付加されている。この約38万語すべての語の前後に6〜7語の文脈をつけ、単純にアイウエオ順に並べ替えて作るKWICを作成することは、今日ではさほど困難なことではない。しかし単純にアイウエオ順に並べたときに、従来の索引では得られない情報、例えば「御」という接頭語のつく名詞一覧などは得られるが、使いにくい面も多々出現する。即ち、活用のある語についてみると、表記が同じであれば「四段活用」「下二段活用」の「動詞」の終止形は同じ箇所に出現順に並んでくる。つまり違う語でも同じ箇所に並んでしまい、別語としてグループ化されないという点である。今回は、これらの点について使いやすく改良したのでその方法について詳しく述べる


戻る

古典総合研究所ホームページへ