コンピュータを用いた語彙用例総索引作成の課題と方向性

− 『源氏物語語彙用例総索引』を例として −

上田 英代
村上 征勝
今西祐一郎
樺島 忠夫
上田 裕一

  1.  はじめに

     著者等は,1993年末に『源氏物語大成』1)校異篇をテキストとして,品詞情報つきデータベースを完成させた。このデータベースは,文章を統計的手法を用いて計量分析するために作成したものである。完成したデータベースを用いて,昨年末,『源氏物語語彙用例総索引』2)を作成した。データベースと,『語彙用例総索引』作成には可能な限りコンピュータを用いた。いずれの作成過程でも諸々の次元の問題が生起した。この小論では,その経験をふまえ,コンピュータを用いた語彙用例総索引作成の課題と方向性について検討する。
     ふり返れば,昭和40年代より,日本の古典文学作品の殆どについて本格的な索引の整備が始まった。その方法は,およそ次の様なものである。ある底本を選び,一語一語のカードをつくる。カードに,語の本文中の表記,見出し語,品詞,活用の種類と活用形,語の所在するページ・行その他の情報を記載する。すべての語のカードが整備されるまでに数年あるいは数十年の年月が費やされた。カードの整備が済むと,できるだけ引きやすい索引となるよう五十音順に並べ,各語毎に出現順にページ・行を配列した。こうした配列法が一般的であるが,異なった配列法を試みた索引もある。
     昭和48年には,語分割と品詞認定を手作業で行ない,その後の配列をコンピュータで行なった『平家物語総索引』3)も作られた。しかし,殆どの索引は最初から最後まで手作業であったため,多大な人力と根気が要求された。しかも,多大な人力をかけても,誤記入や記入漏れなどの,単純な誤りはどうしても防ぎきれなかった。更に,総索引にとって肝要な条件である誤認定にも,しばしば揺れが起こった。
     そこで『語彙用例総索引』では,コンピュータを用いることによって,こうした点をできるだけ防ぎ,諸作業を効率良く行なう方法を工夫した。近年,パソコンは大幅に機能が向上したので,従来大型計算機で行なってきたような大量のデータの高速処理が可能になり,『語彙用例総索引』作成途上でも,上位機種の導入や,メモリの増設等に伴って,作業効率は上がった。『語彙用例総索引』は,従来の索引作りとはまったく違った方法で,作成したものである。

  2.  作成経過

     まず,作品の本文をそのままOCR(光学読みとり装置)で読み込んで電子化する。著者等は,富士電機のXP−50Sを使用したが,『大成』本文の識字率は90%でスピードは980字を約一分で読みとった。誤認識した文字の修正,点検を行なってもキーボード入力より数十倍速い。このデータを,ソフト開発して自動的に語分割,品詞つけを行ない,所在ページ・行の情報等を付加してゆき,カード作成を省略した。プログラミング言語は主にCシェル,AWK,C言語などUNIX系を使用し4),BASICも使用した。語分割を自動的に行なうことによって,語認定の揺れが防げた5)
     次に,語の配列方法をコンピュータで種々試した。ソートと呼ばれるこの作業は,どのOSを積んだコンピュータであっても基本的な作業コマンドとして常備されている。データの形が半角スペースや,決められた記号で区切られていれば,どの列ででもソートできる。即ち,データに必要な情報さえ付加しておけば,語の表記による単純な五十音順(図1)や,品詞別ソート(図2)なども容易であった。
     また,活用する語の終止形をデータに書き込んでおけば,語の表記の形ではなく,終止形の五十音順に並べることもできる(図3)。更に,品詞別抜き出しや,特定の接続関係の語のみの抜き出し,等の抽出作業も非常に速く,語数のカウントや,逆引き表作成も容易であった。
     

    大成頁行 表記 品詞 見出しカナ
    0390-11 あいなし 形容 アイナシ
    0389-05 あくまて 副詞 アクマデ
    0390-02 あさから 形容 アサカラ
    0388-14 あたり 名詞 アタリ
    0390-12 あたり 名詞 アタリ
    0387-12 あつま 名詞 アヅマ
    0389-05 あてに 形動 アテニ
    0388-09 あな 感動 アナ
    0387-09 あはれ 名詞 アハレ
    0390-02 あはれ 名詞 アハレ
    0389-02 あはれなり 形動 アハレナリ
    0387-04 あはれなる 形動 アハレナル
    0388-11 あはれに 形動 アハレニ
    0390-01 あはれに 形動 アハレニ
    0388-14 あまた 副詞 アマタ


    大成頁行 表記 品詞 見出しカナ
    0388-09 あな 感動 アナ
    0389-05 あてに 形動 アテニ
    0389-02 あはれなり 形動 アハレナリ
    0387-04 あはれなる 形動 アハレナル
    0388-11 あはれに 形動 アハレニ
    0390-01 あはれに 形動 アハレニ
    0388-12 いかなる 形動 イカナル
    0389-09 いかに 形動 イカニ
    0389-09 えんなり 形動 エンナリ
    0387-14 おほきなる 形動 オホキナル
    0387-13 かとちかなる 形動 カドチカナル
    0388-12 かやう 形動 カヤウ
    0388-13 かやうに 形動 カヤウニ
    0390-08 かりに 形動 カリニ
    0388-13 くるしけなり 形動 クルシゲナリ
    0390-05 ことなり 形動 コトナリ
    (図1)巻11花散里の総出現自立語より    (図2)巻11花散里の総出現自立語より
    (表記による単純五十音ソート)           (品詞別ソート)


    大成頁行 表記 品詞 見出しカナ
    0390-08 あら 動詞 アラ アリ
    0390-09 あら 動詞 アラ アリ
    0389-05 あり 動詞 アリ アリ
    0388-11 あれ 動詞 アレ アリ
    0390-04 あれ 動詞 アレ アリ
    0388-10 いつる 動詞 イヅル イヅ
    0388-04 いれ 動詞 イレ イル
    0388-10 うへ 動詞 ウヱ ウウ
    0389-09 うちすんし 動詞 ウチズンジ ウチズンズ
    0389-07 うちなき 動詞 ウチナキ ウチナク
    0389-08 うちなく 動詞 ウチナク ウチナク
    0390-06 うちふるまひ 動詞 ウチフルマヒ ウチフルマフ
    0387-10 うちやつし 動詞 ウチヤツシ ウチヤツス
    0388-03 をしかへさ 動詞 オシカヘサ オシカヘス
    0387-11 おはしすくる 動詞 オハシスグル オハシスグ
    0387-04 おはせ 動詞 オハセ オハス
    0389-01 おはする 動詞 オハスル オハス
    0387-14 おほしいて 動詞 オボシイデ オボシイヅ
    0388-12 おほしいつ 動詞 オボシイヅ オボシイヅ
    (図3)巻11花散里の総出現自立語より
    (終止形の五十音順)

  3.  従来の総索引作りの検討

    3.1 文献の総索引の利用目的
     総索引の利用目的はおよそ以下の如くである。

    @該当語の文脈上での意味を正確に知るため,その作品の文脈にあるすべての用例を調べる。
    A語の接続関係(品詞面や意味の面等)を調べる。
    B同一表記で異議語の場合の用例を調べる。
    C同一語の表記の違いを調べる。
    D接頭語や接尾語の用法を調べる。
    E類似語で別品詞の語の用法を調べる。
    F複合語の語構成を調べる。
    G登場人物の登場回数や登場の意味をさぐる。
    H作者特有の語の用法を調べる。
     等々,主な目的を挙げただけでもこれ位ある。他にも種々の目的がある。最も多く利用されているのは@とAの場合である。自立語ばかりでなく,付属語の索引では,Aの理由による利用頻度が,より高いと思われる。

    3.2 総索引に求められる条件
     3.1で述べた利用目的をみたすために,総索引に求められる必要条件は以下の如くである。

    @作品の本文中の語が漏れなく検索できる。
    A語認定や品詞認定は統一した基準で行なう。
    しかし,これだけでは十分ではない。よい総索引とするためには,使いやすさをどれだけ考慮しているかが重要となる。そのため,
     イ,見出し語は,本文中の表記にこだわらず,語の意味が,判るようたてる。
     ロ,適宜小見出しをつけるなど,検索しやすくする。
     ハ,決定した見出し語の配列で,検索が不便な場合は,附表等で補う。
     などの工夫が必要となる。特に見出し語の配列をどうするかは,よく配慮しなければならない。
     自立語については,たとえば接辞のついた語を接辞のつかない形の見出し語のところに一緒に掲載するか,あるいは,接辞も含めた読み方どおりの五十音順の位置に掲載するかの問題がある。もし,本篇で意味を重視して,接辞のつかない形のところに掲載した場合には,附表等で,接辞つきの語を集めて掲載するなどの工夫をするべきである。接辞を含めた読み方どおりに,五十音順で配列すれば,見出し語は接辞つきのままなので,意味はおのずとわかり,附表の必要はない。
     更に,付属語のような出現頻度の多い語の場合,一層の工夫が肝要である。大きな作品になればなるほど,頻度の多い付属語は,単に出現順に頁を掲載すると,延々と出現頁のみ掲載されることになり,数頁にも渡ってしまう。それ故どの語を検索しているかを見失ってしまうことすら生ずる。このような状況を防ぐためには,見出し語の後接語品詞によって,一度グループ化し,小見出しを立て,その後出現順に配列するとか,前接後の品詞や活用形別にもグループ化するとかの工夫が必要である。しかし,見出し語の前接語を調査したいときもあれば,後接語を調査したいときもあり,接続する付属語の連接関係すべてを調べたいときもある。 これらのすべての条件を印刷物でみたすことは難しいが,見出し語の前後の語の配列を考えることで検索しやすくすることは,かなりの程度可能である。現在作成中の『語彙用例総索引』付属語篇では,検索しやすいよう,見出し語の前接・後接の両方の語に注意して細かくグループ化する等の工夫をしているが,詳細については後述する。

    3.3 検討と課題
     3.2の@の条件では,索引を利用する側が,索引とは異なった基準で語を想定していた場合,見出し語からは検索できない場合が生ずる。もし索引が細かく語を区切っていれば,前後の文脈がついているので,複合語の形も類推できる。しかし,利用者が「あき」「の」「かぜ」という文脈中の「かぜ」を検索しようとして「かぜ」という見出し語の項目を探しても,索引が「あきのかぜ」を一語としていれば,「かぜ」の項目に,所在ページ・行が掲載されていない。一語にする基準を長くとると,3.2の@の条件,即ち本文中のすべての語が検索しうる,という条件がみたされない。長い基準で区切った語の後半部分が検索できないからである。
     では,できるだけ細かく語を区切ればよいかというと,必ずしもそうばかりとは言えない。源氏物語の場合も,いくつかの語を複合することによって,複合前の語とは異った意味の語を作っている訳だから,その複合語自身でも検索されなければならない。即ち,作者は,語を複合させることによって,より複雑微妙な表現の深化を目指しているから,作品の特徴的表現が複合語に表れている場合が多い。それ故,複合語の形で一語とし,検索されなければならない。
     このような場合,『源氏物語語彙用例総索引』自立語篇第5巻末に掲載されているような,逆引き表が添付してあれば,「あき(の)かぜ」「うみ(の)おもて」のような複合語でも,「かぜ」あるいは「おもて」でも検索できる。従来の総索引には,殆ど逆引き表は添付されていないので,やはり逆引き表を添付することは必要である。
     しかし,逆引き表が添付されている語彙用例総索引でも検索できないのが,「あき(の)よ(の)つき」のような,自立語を三つ以上連結して複合語を構成している場合で,二番目の自立語で始まる「よ(の)つき」のような語を,本文中からすべて検索したいとき,複合自立語が長ければ長いほど,中間部の語を検索することはできない。こうした検索は,後述するように,コンピュータで行なうほうが容易である。
     3.2のAの条件について検討する。一つの作品中で,語の認定は,最初から最後まで統一した基準でなされなければならないことは言うまでもないが,人力による作業では,単純な基準でも途中で基準が揺らいでしまうことがある。更に,一語とする基準をどう決めるかも問題である。多くの作品に出現する,汎用性の高い一般的な語彙は,一語として見出し語としやすいが,複合語の場合,どの部分で一語とするかが重要なこととなり,その場その場での判定に迷いが生じ,語認定が恣意的になりやすい。実際,同一人物が作業しても,揺れが生じている。
     源氏物語を例にとっても,『源氏物語大成』索引篇と,他の索引と語の認定が異なる場合がある。たとえば『大成』索引篇の見出し語より複合語をいくつか挙げると次のようになる。

    あきのかぜ,あきのよのつき,うみのおもて,いろにいだす,そらにかよふ,
    やらんかたなし,おもひのほかなり,ことのついでごとに,       

     これらの語は,『大成』索引篇では一語としているが,源氏物語の他の索引では必ずしも一語としていない。このような語の場合,同一人物でも語認定に不統一が生じやすい。
     次に,品詞認定については,たとえば「かたがた」という語は,『大成』索引篇では「名副」として,名詞でも副詞でもない別の品詞を立てている。しかし,名詞,副詞どちらともいえる[名副]という品詞つけは,他の索引で同様になっているとはいえない。ただ,品詞認定については,総索引を利用する際,作品内で基準が統一されていれば,認定の仕方が,利用者側と異なっていても,それほど不便さは感じない。 それがその索引の認定基準である,と利用者側が納得して利用すればよいからである。しかし,複合語をどの基準で認定するかは,目的の語が検索できない場合も出てくるので,慎重になされなければならない。
     次に,3.2のハ,について例を挙げる。『大成』索引篇で,接辞関係の語構成が,全巻でどのようになっているかを調べることは,難しい。即ち,接頭語「御」や「おはん」のつく語をすべて検索したいとか,活用する語の語幹について理由を表す接尾語「…み」のついている語とか,をすべて検索したい,という要求には到底答えられない。接辞つきの語は,その語の接辞のつかない形の見出し語のもとに,載せられているため,見出し語が五十音順に配列されていると,検索引中では接辞つき語が,点在しているからである。見出し語が五十音順に配列されていると,このような語構成の調査ができない。語構成の調査等を行なうときは,その作品の,表記の区別も含めた総異なり語を,五十音順でない,様々の配列の仕方で並べた附表等が必要となってくる。
     更に,見出し語が濁点つきひらがなで立てられ,意味を表す漢字が注記されていても,本文中の表記は一切わからない。同一語で,異表記が何種類あって,それが何個位づつあるか等の調査は,すべて本文を確かめなければならないから,かなりの手間がかかる。これらの問題点も『語彙用例総索引』では解決できる。即ち,本文表記通りに,語がそのまま配列されているからである。

    3.4 逆引き表つき語彙用例総索引の利点
     3.2で,総索引の必要条件について述べた。こうした点をできうる限り達成しようとしたのが,逆引き表つき語彙用例総索引であるといえる。現在までの語彙用例総索引のいくつかの例を挙げる(図4,図5)。『源氏物語語彙用例総索引』以外には,逆引き表が添付されていないので,若干の不満が残る。
     語彙用例総索引では,見出し語のもとに,該当語の所在ページ・行が記載されているだけでなく,該当語の前後に文脈をつけ,ある程度の長さで切り取った本文がそのまま載っているので,一語一語ページを操る手間が省ける。更に語の認定の違いが,かなりの程度解決できる。たとえば,形容動詞などは,認定の違いがあっても,殆ど検索できる。
     『語彙用例総索引』で複合型の形容動詞を例にとると,「おもひのほかなり」の語は,索引によっては一語とせず「おもひのほか」+「なり」とわけているが,「おもひのほかなり」と一語になっていても充分検索しうるし,二語にわかれていても「おもひのほか」を検索すれば,後接語が一覧できるので問題はない(図6)。
     更に逆引き表があれば,複合語の最後の語でも検索しうる。逆引き表つき『語彙用例総索引』は印刷物として最大限努力したものである。

    (図4)今昔物語集文節索引6)      (図5)万葉集總索引7)

    オモ−オモ
    紫 0195-09  と 心をか れ 人 も うらみかちに ▽思ひのほか の 事 をのつから    1-232 1-336
    薄 0606-05     しはし に て も よそよそに  思のほか の ましらひ し 侍ら む 2-219 2-421
    上 1034-03      し も あら て をのつから  おもひのほか の 事 も       3-221 4-023
    横 1273-06 いてものし 給 へき 契 に て さる  おもひの外 の こと も ある に  4-060 4-339
    早 1691-06   おほしさため たり ける に かく  おもひのほか の 人 を このほと  5-026 5-355
    宿 1705-13  いなひはて し と おほし つる を  思ひのほか の 事 いてき ぬ へか 5-038 5-369
    賢 0345-11    はなやき 給へ と 御心の中 は ▽思ひのほかなり し こととも を   1-379 2-094
    宿 1739-02   ぬる を せめて おもひしつめ て  思ひのほかなり ける 御心 の 程  5-074 5-416
    帚 0040-07   あはれ たら む むくらのかと に ▽おもひのほかに らうたけなら ん   1-061 1-136
    帚 0040-11 たら む かたかと に て も いかか  思ひのほかに をかしから さら    1-061 1-137
    夕 0104-09  あてはかに ゆへつき たれ は いと  おもひのほかに おかしう おほえ   1-127 1-214
    夕 0107-09  すまひ なれ と その なか に も  思のほかに くちおしから ぬ を   1-130 1-218
    夕 0112-13  しものしな なら め その なか に  おもひのほかに おかしき 事 も   1-135 1-225
    夕 0121-13    て 女 も かかる ありさま を  思ひのほかに あやしき 心地 は   1-145 1-237
    紫 0183-06 の うち に いり 給へ は あやしう  おもひのほかに も と あきれ て  1-217 1-319
    (図6)源氏物語語彙用例総索引

  4. 『源氏物語語彙用例総索引』の特長

     『語彙用例総索引』は自立語篇と付属語篇にわかれるが,現在自立語篇が既に完成しているので,ここでは,主に自立語篇の特長について述べる。

    4.1 自立語篇の特長
     前述のような検討の後『源氏物語大成』をテキストとして,『源氏物語語彙用例総索引』自立語篇を作成した。そもそも『大成』校異篇は,校訂本文ではない写本を活字化したものであるから,テキストとしても価値が高いが,更に,本文の不備を補って『語彙用例総索引』を作成したので,表記の研究等に十分活用できる。
     特長について述べると,以下の様になる。

    @横書きで,該当語の中央に並べ,ゴシックとし,見やすくした。該当語を縦に見ると,前後に接続する語が一覧できるので,用語法の研究が容易になる。たとえば,形容詞カリ活用に接続する語と,ク活用,シク活用に接続する語が区別されていること等が,一覧できる(図7)。
    A本文表記のまま,前後の文脈をつけて掲載したので,たとえば,同一語でも「い,ゐ,ひ」「え,ゑ,へ」「お,を,ほ」の表記が,そのまま本文表記の違いとして掲出されている。また反復記号は反復される文字に直した。異表記の有無,種類,個数などがわかりやすい(図8)。
    B語認定と語の配列は『大成』索引篇に準じている。
    C見出し語は特に設けず,別語,別形に移る箇所には,語頭に▽印を付した。和歌中の語には< >を付した。『大成』索引篇で,本文に疑義ある語には・印がついているが,『語彙用例総索引』でも同様に・印を付した。
    D古典文学大系『源氏物語』(岩波書店)と日本古典文学全集『源氏物語』(小学館)の冊とページを付した。ただし,『大成』に存在する語でも,底本の違いや,本文校訂などの理由によって,『大系』『全集』に存在しない語がある。また,該当語が必ずしも同一の形では提出されていない場合がある。
    E巻末に,『大成』索引篇一般語彙の部の,小見出しの項目の語尾から五十音順に並べた逆引き表をつけ,語末の( )の中に,その表記の本文中における度数を示した。3.3で述べたように,索引の編者と,利用者が異なった語認定をしても,本篇と逆引き表を利用すれば検索しうるし,語構成を調べる際にも便利である(図9)。
    F巻末の数表1には,各巻における各品詞(自立語)の出現度数を示した。
    G数表2には,全巻を通じて出現頻度の多い順に,100位までの語を並べ,総自立語数に対する千分率を示した。
    H数表3には,各巻における出現度数の多い順に,50位までの語を並べ,各巻の総自立語数に対する千分率を示した。
    I更に附表として,『語彙用例総索引』作成作業の間に発見された『大成』索引篇の語植や,語形認定や,品詞認定の誤り等を一括して載せ,先人の業績を発展させた。

    ウカ−ウキ
    朝 0658-09  せ に や まとは む と おほす そ ▽うかり ける と や          2-270 2-486
    少 0693-09   と おもふ に いと つらく いてや  うかり ける よ かな との の    2-305 3-051
    螢 0805-04    おほしみたる めれ かの けむ か  うかり し さま に は なすらふ   2-419 3-187
    御 1394-14  し あけくれ の 夢 そ なこり さへ  うかり ける やむことなき       4-187 4-498
    宿 1744-10  の 程 や は へ ぬる 思ひのほかに  うかり ける 御心 かな と すへて  5-080 5-424
    桐 0016-01     たてまつら ん も いと 人きき ▽うかる へし 又 み たてまつら て  1-039 1-109
    夕 0109-01    な ん 事 も いと いふかひなく  うかる へき こと に 思 て     1-131 1-220
    総 1657-14   人 も みえ む か 心やすから す  うかる へき こと もし いのち    4-459 5-313
    浮 1924-01      ききあはせ 給は ん 事 いと  うかる へし すへて いかに なり   5-272 6-186
                               〜
    空 0093-11    にくみ 給 へか めれ は 身 も ▽うく おもひはて ぬ なとか よそ   1-119 1-202
    紫 0174-01  む と ふかう おほし たる に いと  うく て いみしき 御けしき なる   1-205 1-305
    葵 0293-03     し せ に いとと よろつ いと  うく おほしいれ たり 大殿 に は  1-328 2-025
    葵 0323-14  のみ もてなし 給 て 世中 の いと  うく おほゆる ほと すくし て    1-361 2-068
    蓬 0519-12  の さはき いてき て なへて の よ  うく をほしみたれ し まきれ に   2-138 2-316
    蓬 0527-02 契 を し たまひ し に わか 身 は  うく て かく わすられ たる に   2-145 2-326
    少 0700-12    らるる 事 まされ は さと さへ  うく おほえ 給 つつ また      2-313 3-061
    柏 1228-11   給は ぬ も ことはりなれ と いと  うく も 侍 かな なと きこゆる に 4-012 4-281
    霧 1326-03  と おもふ もの も の給は て いと  うく くちおし と おほす に     4-114 4-406
    霧 1328-05   やう は あら し かし と すくせ  うく おほしくし て ゆふつかた そ  4-116 4-409
    竹 1497-01  中將 は 猶 思そめ し 心 たえ す  うく も つらく も 思ひ つつ    4-289 5-100
    帚 0045-03      る 人 きとふらひ ひたすらに ▽うし とも おもひはなれ ぬ 男    1-066 1-142
    帚 0049-10  も やめ む と おもひ て まことに  うし なと も おもひ て たえ ぬ  1-071 1-148
    帚 0070-07     給へ る を ふかく なさけなく  うし と 思ひいり たる さま も   1-096 1-177
    帚 0071-03     まし と おほす なくさめかたく  うし と 思へ れ は なと かく   1-097 1-178
    帚 0078-02   も のたまは す いたく うめき て  うし と おほし たり ははき木 の  1-105 1-187
    空 0085-02      ぬ を こよひ なむ はしめて  うく と よ を おもひしり ぬれ は 1-109 1-191
    夕 0085-02      ことつて も し 給は ね は  うく と おほしはて に ける を   1-169 1-263
    賀 0261-03     人 こそ いとおしけれ まことは  うく や 世中 よ と いひあはせ て 1-297 1-417
      
    (図7)源氏物語語彙用例総索引

    松 0580-10  はへる を この 春 の ころ より  ▽内の大殿 の つくら せ 給ふ     2-192 2-389
    少 0690-10  て 我 御かた に いりゐ 給へ り   内の大との の きんたち 左少將    2-301 3-046
    初 0775-04     ほと なり 殿 の 中將のきみ   内の大いとの の きみたち       2-390 3-153
    胡 0784-10 その うち に ことの心 を しら て   うちのおほいとの の 中將 なと    2-398 3-162
    胡 0788-04        て おもひ も よら す   内のおほいとの の 君たち は     2-402 3-167
    胡 0791-12 ととめ て まかり に ける に こそ   内のおほいとの の 中將 の この   2-405 3-171
    常 0838-08   むつかしき 御かたらい なり ける   うちの大殿 は この いま の     3-022 3-228
    篝 0855-01   このころ 世の人 の ことくさ に   内のおほいとの の いまひめ君     3-039 3-247
    行 0895-06    と 御くちかため きこえ たまふ   うちのおほゐとの かく 三条の宮    3-078 3-295
    真 0958-03     うたひ ける 程 を みれ は   うちの大殿 の きんたち は      3-143 3-374
    真 0968-10    こと なり かし まことや かの   うちのおほいとの の 御むすめ     3-155 3-389
    梅 0980-05   おかしき ふえ の ねとも きこゆ   うちのおほいとの の 頭中將      3-165 3-402
    梅 0985-06   宰相の中將 式部卿の宮 の 兵衛督   うちのおほいとの の とうの中將    3-171 3-409
    (図8)源氏物語語彙用例総索引

     (名) あはれ ( 101) 
     (感) あはれ (  30) 
    (形動) あはれ ( 148)
           哀 (  2) 
       秋のあはれ (  4) 
      なけのあはれ (  2) 
      もののあはれ (  6) 
       物のあはれ (  7) 
       ものあはれ (  1) 
        物あはれ (  1) 
    (図9)源氏物語語彙用例総索引
        逆引き表より     

    4.2 コンピュータを用いた利点
     前述したように,『源氏物語語彙用例総索引』は,『源氏物語大成』校異篇をテキストに,索引篇の見出し項目通りの語で,語認定し,分割し,品詞認定したデータベースをもとに作成したものである。語の分割も品詞つけもプログラムで自動的に行なったので,語認定,品詞認定は,54帖通じて統一されている。コンピュータを使用するといっても,カード型でデータベースを作成する場合は,一語一語本文より語を打ち込んでいくので,ソートするには便利だが,語認定や品詞認定の統一は不可能で,手作業による誤りと同レベルである。語認定,品詞認定を自動化した結果, 『大成』索引篇の語認定,品詞認定,その他の不統一や,索引漏れの語等が発見され,4.1のIで述べたように『語彙用例総索引』の巻末に,附表として載せることができた。語認定や品詞認定の不統一や索引漏れの多くは,コンピュータによるデータの一覧が敏速に行なえることにより,発見されたものが多い。
     また,表記が本文通りであるため,同一語で表記が異なる語の調査ができ,写本の系統の違いなどの研究に役立つと思われる。たとえば,出現頻度の多い「心」や「人」という語に着目してみると,巻によって漢字表記とひらがな表記の,かたよりが見受けられる。他の語についても,こうした表記の調査は容易である。また,逆引き表を作ることもコンピュータで簡単に行なえ,これを用いることによって,「ども」等,接尾辞のついた語の調査が容易となる。更に,出現度数を調べたり,4.1のFGHの表を作成したりすることも容易である。

    4.3 付属語篇への展開
     『源氏物語語彙用例総索引』付属語篇は,既に出版されている自立語篇に近い構成で,作成中であるが,配列法は自立語篇とは異なっている。まず,付属語篇を自立語篇とわけて独立させた理由は,源氏物語の付属語がおよそ16万余語あること,自立語として認定した語の中にも,語構成上掲載すべき付属語を含んでいる語が多くあり,それらも参照項目として掲載すると18万語以上にもなるため,自立語(21万余語)とわけないと索引があまりにも膨大になることによる。加えて,出現自立語の総数21万余語に対し,2万余種の異なり語がある自立語とは異なり,付属語の種類が,述べ付属語数に対して少ないため,付属語一種類ずつに対する出現総数が多いことがその大きな理由である。 源氏物語のような付属語の出現総数が多い作品では,付属語一種類の語に対し,単純に出現順に掲載したのでは,一種毎の付属語の出現度数も多いので,付属語に対する多様な研究目的には対応しきれない。それ故付属語は,自立語と同列に掲載せず,各付属語の特性がもっと明確になる配列を試みなければならない。
     まず,参考となる『大成』索引篇の助詞助動詞の部をみると,以下のような配列になっている。

    @付属語の見出し語は,品詞を問わず五十音順に,配列されている。ただし助動詞等活用する語は,大きな見出しの下に活用順に並んでいる。
    A@でグループ化したあと,見出し語に後接する語が付属語のとき,その五十音順に並べている。
    BAの順で配列した後,更に見出し語に前接する語の品詞,活用形別に分類してグループ化している(図10)。
    C文脈中の語順が,自立語+付属語(1)+付属語(2)+付属語(3)……で,見出し語が付属語(1)のとき,小見出しは,付属語(2)+(3)+(4)も接続したままで出され,付属語(1)の見出しの中で付属語(2)の五十音順に配列されている。
     この文脈中の付属語(2)は,付属語(1)の見出しのときに,その下についた形のままで掲載され,付属語(2)の見出し語のもとには掲載されない。即ち,自立語に最初につく,付属語の見出し語のもとには,その単独用法と,後に続く付属語がすべて掲載され,一度掲載されると付属語連続の中の2番目,3番目の語は,2番目の語の見出し語のところには掲載されない。
    D『大成』索引篇一般語彙の部で,一語の自立語と認定したが,語構成上付属語が入っている語については,その本来の付属語のグループの後に,付属語の入った自立語を五十音順に配列している。たとえば,格助詞の「の」のグループの後に「(あき)の(あはれ)」「(あき)の(あめ)」「(あき)の(かぜ)」等の語が,一かたまりになって,五十音順に配列されている。しかし,一般語彙の部で[連語]として,一語と認定した語で,その語の中に付属語が含まれていた場合は,付属語の前後で語を分割して,付属語に前接する語の品詞や活用形別に,本来の付属語のグループのところに一緒に所在ページ・行を掲載している。複合名詞や複合動詞の扱いとは異なっている。
     このような配列には,問題点が多い。特にCの配列については,利用者は不便を強いれられる。即ち,自立語+付属語(1)+付属語(2)……のとき,付属語(2)の前後関係を全て知りたいのに,付属語(2)の見出し項目を探しても,所在ページすら載っていず,その1つ前の付属語(1)の見出し項目を,探さなければならないからである。更に付属語(1)の小見出し部分では,接合した形のままゴシックとなっているため(図11),付属語の種類が判別しにくい。
     更に,付属語入り複合自立語は[連語]を除き,本来の付属語グループの後にまとめられているが,[連語]はすべて分割されて,本来の付属語のグループの中に,一緒に掲載されている。そのため,その語が一般語彙の部で[連語]としてすでに掲載されていたかどうか,語の認定はどうだったかということはわからない。更に,複合した[連語]のうち,複合語として個々の語の結合度が非常に高い場合は,別項目をたてて本来の付属語のグループの後に掲載している。このように,一般語彙の部で,掲載済の自立語中の付属語の配列が,助詞助動詞の部で統一性がないのである。これでは利用者は,目的の語を探すのが困難である。
     以上の『大成』索引篇の助詞助動詞の部の不備を補う形で,『語彙用例総索引』付属語篇では,それぞれの付属語の見出し語のところにはすべての用例を載せる予定である。即ち,前接や後接に付属語があって,見出し語がその中間部にあっても,すべて前後の文脈をつけて載せるということである。ただし,語の配列には相当の注意を払った。
     まず,見出しの付属語の後接が自立語か付属語かで大きく二分する。後接が自立語のときは前接を品詞別,活用形順,五十音順に並べる。後接が付属語のとき,後接付属語の五十音にまずグループ化する。そのグループ毎に前接の品詞別,活用形順,五十音順に並べる。その後,同じ語順のものが多いときは出現順に並べる。
     また,自立語篇で掲載した語で,語構成上付属語の入っている語の扱いは,すべて統一して五十音順に配列した。

    (図10)源氏物語大成助詞助動詞の部

    (図11)源氏物語大成助詞助動詞の部

  5.  今後の方向性

     語彙用例総索引を中心に,いろいろ述べてきたが,総索引を作成する際に,OCRや自動的に語分割や品詞認定するソフトを利用して,作業時間の短縮と索引の正確さとをはかるべきである。しかしながら,索引作成までの諸作業をコンピュータで行ない,配列作業などの高速化や,語認定の統一等,コンピュータの機能を最大限生かしたとしても,印刷物として一つの方法で固定する限り,問題点は多少なりとも残る。
     印刷物にすることは,コンピュータの本来の機能を限定して,固定した条件でのみ掲載するということである。この制約のために,利用者の様々の要求に,すべて答える事は困難である。印刷物で利用目的の大半をみたし,補完する意味で,電子化された索引をコンピュータで活用すれば,語の認定は統一した基準で行なわれ認定基準をいくらでも変えて検索することができる。印刷物は,ある利用法,使用目的の上に固定してしまうので,コンピュータの機能を最大限活用しているとはいえない。電子化されたデータがあれば,利用者の目的に合った総索引がコンピュータ上でいくらでも作成できる。複合語の認定に悩むことなく,幾種類もの区切り方で認定し,検索することができる。また,品詞認定等も一つの基準を決めると,すべて同じ基準で全巻統一できる。語の配列法は,該当語だけについても,前接語,後接語についてもいくらでも条件通りに並べ換えることができる。即ち,表記順でも,終止形順でもその他の並べ方でもよい。3.1の@〜Hのすべての要求をみたすことができる。任意の語のみの抽出や,語数のカウントも容易である,総索引作りにコンピュータを利用することは非常に有効な手段であり,電子化された『語彙用例総索引』があり,種々の用途にあった検索ソフト,集計ソフト等々を作れば,諸々の利用目的が達成される。
     ところで,現時点では日本の古文献をコンピュータで扱う際には,標準的なコンピュータに備えられているJIS漢字の量が少なすぎるため,旧漢字や異体字の問題をどうするかの問題が残っている。しかし,漢字コードは,16ビットコンピュータの制限のもとにJIS第一・第二水準が作られており,今後開発されるコンピュータは,32ビット,64ビットへと性能が向上していくので,すべての漢字は,早晩コード化されるであろう。従って,近い将来,日本の古文献に関しても,より本文表記に忠実な索引の作成が可能となるであろう。

  6.  おわりに

     今後の,総索引の作成は,利用目的の大半をみたすものとして,まず印刷物とし,それを補完するものとして,電子媒体でデータを提供することが理想的である。現在では,一枚のCD−ROMで大量のデータを記録することができるので,従来の一底本だけによる総索引を越え,何種類もの底本のデータベースをも含めた,ある作品の総合索引とも言えるものを目指すのが理想である。従って,

    @作品によっては種々の系統の写本が存在しているものもあるので,一写本データベースだけでなくできる限り多くのデータベースも用意されていること,
    A種々の利用目的に合わせた様々の検索ソフト,集計ソフトが完備していること,
    B用途に応じた出力が随時実行,印字できること,
    が理想的である。
     著者等は,『語彙用例総索引』付属語篇完成の後に,CD−ROMを作成して,上記の諸問題を解決していくつもりである。できるだけ多くの写本データベースを完備し,ソフト類を充実することによって,保有する資料と,記憶に頼っていた底本研究に,研究者間の共通の基盤ができ,総索引は,それに伴ってより充実されていくと考えている。
     なお,『源氏物語(語彙・用例)総索引 自立語篇』の出版にあたっては,平成6年度文部省科学研究費補助金,研究成果公開促進費(代表 村上征勝)の助成を得た。


    引用文献
    1)池田亀鑑編著.源氏物語大成.中央公論社.(1984)
    2)上田英代,村上征勝,今西祐一郎,樺島忠夫,上田裕一共編.源氏物語語彙用例総索引自立語篇.勉誠社.(1994)
    3)金田一春彦,清水功,近藤政美編.平家物語総索引.学習研究社.(1973)
    4)上田裕一,上田英代,村上征勝.源氏物語の計量分析のためのデータベース作成.人文学と情報処理.No.2.P.55-60.(1993)
    5)上田英代,上田裕一,村上征勝.『源氏物語大成』の品詞情報つきフルテキストデータベースの作成について,情報知識学会誌.Vol.4.No.2.81-93(1994)
    6)馬淵和夫編.今昔物語集文節索引.笠間書院.(1970)
    7)正宗敦夫編.万葉集總索引.平凡社.(1931)

    上田 英代(古典総合研究所)
    村上 征勝(統計数理研究所)
    今西祐一郎(九州大学文学部)
    樺島 忠夫(神戸学院大学) 
    上田 裕一(もとぶ野毛病院)


戻る

古典総合研究所ホームページへ