源氏物語の計量分析

村上征勝:統計数理研究所、上田裕一:琉球大学、上田英代、樺島忠夫:神戸学院大学

  1. 目的
     源氏物語は、本文の整備校訂から始まり、作品そのものの研究についてはいうまでもなく、絵画、工芸、音曲、香の分野に至るまで、古来よりありとあらゆる面で研究されてきている。主題と構想、製作方法と成立過程は、密接にからみあって、紫式部の独特の文体や語法となっている。この作品の数々の謎は、未だ解決しないまま残され、宇治十帖他作家説、複数作家説、成立過程における後期挿入説などについても明確な結論は出ていない。
     筆者等は、『源氏物語大成』の品詞情報付きデ−タベ−スを作成し、こうした種々の課題を、コンピュ−タを用いて統計的計量分析を行なうことによって解明する努力を続けている。更に、現在までの疑問の解明ばかりでなく、紫式部日記との比較や、他作品との比較を行い、新たな作品研究の結果も提出して行く予定である。

  2. 本文選定から入力作業
     源氏物語は千年も前の作品であり、自筆本は残っていない。写本の整備に関しては早くから行なわれ、現在校訂された本文は各種存在する。本研究では、@「源氏物語」だけではなく他作品との比較を行うため、機械化できる作業はできるだけ取り入れ、作業の高速化をはかる、A人間が行うと単位認定に搖れが生じ易い単語分割をできるだけ機械化し、正確で統一のとれた分割が敏速に行われる方法を開発する、B「源氏物語」の品詞付けは、統一した基準で行い各種の文法情報が計量分析のプログラムに正確に載せられるようにする、C分析は、単語の意味の面からも、文法の面からも行う、という方針のもとに作業を進めた。
     デ−タ作成のための本文テキストとして『源氏物語大成』を用いた。理由は、本文に濁点がなく、ひらがな表記が多く校異が精密であり、ルビ行がなく、語彙索引が完備しているからである。 
     まず本文をOCR(Optical Character Reader 富士電気XP−50S)で読み込み機械可読化した。この機械は、B4用紙の印刷文字を連続して50枚まで読みとり可能なので、『大成』の本文をコピ−して見開き2ペ−ジ分をB4用紙1枚とし、948ペ−ジ分を読みとった。誤読の主なものは、OCRがJIS第二水準では一部の漢字にしか対応していないための間違いと、繰り返し記号の読みとり間違いである。これらは、一つ一つ手修正していった。

  3. 自動単語分割
     修正済みの『大成』のテキストに手作業によって、『日本古典文学大系』を参考にして句点を入れた。これは、自動単語分割を行う際に行毎の処理がしやすくなることと、分割の正確さを増すためである。しかし、本文の写本の系統が違うために、本文が著しく違う場合は『大成』の本文で文の終わりが終止形のもののみ句点をつけた。この時点で、各巻の文の数、平均文長等のデ−タが得られる。(図1)

    各巻ごとの平均文長
    (図1)

     次に「源氏物語」の1〜8巻までを手作業で単語分割し、異なり単語を集めて単語集をつくり、分割用辞書とした。その後『フロッピー版古典対照語い表』が入手できたので、その中の「源氏物語」使用語彙を分割用辞書に加えた。活用する語には、すべてに活用語尾を付加し、手作業分割による1〜8巻までの単語集と、『古典対照語い表』を合成した辞書を作成した。単語の自動分割を更に正確なものとするため、『大系』本を参考に本文テキストに読点をつけた。この本文テキストを、合成した辞書で自動分割した結果が(図2)である。自動単語分割プログラムは、UNIXのCシェルプログラムを使って作成した。<=と−>で区切られた部分が辞書の単語とマッチし、分割された単語である。このプログラムは、長い単語から先に区切ってゆき、一度<=と−>で区切られた後はその中は区切らないという仕組みになっている。

    <自動単語分割結果 「桐壷」>
    <=いつれ-><=の-><=御時-><=に-><=か->。<=女御-><=更衣-><=あまた-><=さふらひ-><=給-><=ける-><=なかに-><=いとやむことなき-><=き-><=はに-><=は-><=あら-><=ぬか-><=すくれ-><=て-><=時めき-><=給-><=ありけ-><=り->。<=はしめ-><=より-><=我-><=は-><=と-><=思あかり-><=給へる-><=御方¥めさましき-><=もの-><=に-><=おとしめ-><=そねみ-><=給->。<=おなし-><=ほと-><=それ-><=より-><=下らう-><=の-><=更衣-><=たちは-><=まして-><=やすからす->。<=あさゆふ-><=の-><=宮つかへ-><=に-><=つけて-><=も-><=人-><=の-><=心を-><=のみ-><=うこかし-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=ありけ-><=む-><=いと-><=あつしく-><=なり-><=ゆき-><=もの心ほそけに-><=さとかち-><=なる-><=を-><=いよ¥¥-><=あか
    (図2)

     この自動分割プログラムでは、一文字或いは二文字の単語分割は不正確なので、自動分割の後、手で修正した。修正後の正確に分割された巻で異なり単語集をつくり、元の分割用辞書にない単語を追加していった。固有名詞や漢字混じりの初出単語などが増加してゆくわけである。一巻ごとに新たな単語が元辞書に追加されることは、自動分割の正確さを増してゆくことになった。最終的に合成辞書による自動分割で、54帖目の「夢の浮橋」は、80%の正確さであった。 

  4. 自動品詞付け
     正確に分割されたテキストに、自動的に品詞付けをしてゆくために、まず品詞付き辞書を作成する。ここでも『古典対照語い表』を利用した。「源氏物語」使用単語を品詞付きで取り出し、辞書をつくる。次に、活用する自立語は終止形でのみ採られているので、その語幹にすべての活用語尾をつけた単語を追加し元辞書とする。その際、同音異義語で同一品詞のものは一語だけ採り、異なる品詞のものは一つの語に可能性のある品詞をすべてつけ、複数の品詞を付けた多品詞語とした。
     この辞書を使って、正確に分割されたテキストを用いて巻1から自動品詞付けを行なった結果が(図3)である。

    /いつれ[  ]/の[助詞][名詞]/御時[  ]/に[助詞][助動][動詞][名詞]/か[助詞][代名][名詞]/。/女御[  ]/更衣[  ]/あまた[名詞]/さふらひ[助動][動詞][名詞]/給[  ]/ける[助動]/なか[動詞][名詞]/に[助詞][助動][動詞][名詞]/いと[副詞][名詞]/やむことなき[形容]/きは[名詞]/に[助詞][助動][動詞][名詞]/は[助詞][助動][名詞]/あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/て[助詞][助動][名詞]/時めき[  ]/給[  ]/あり[動詞][名詞]/けり[助動]/。/はしめ[動詞][名詞]/より[助詞][動詞]/我[ ]/は[助詞][助動][名詞]/と[助詞][助動][副詞][名詞]/思あかり[  ]/給へ[  ]/る[助動]/御方¥[  ]/めさましき[形容]/もの[名詞]/に[助詞][助動][動詞][名詞]/おとしめ[動詞]/そねみ[動詞][名詞]/給[  ]/。/おなし[形容]/ほと[名詞]/それ[代名][動詞][名詞]/より[助詞][動詞]/下らう[  ]/の[助詞][名詞]/更衣[  ]/たち[動詞][名詞]/は[助詞][助動][名詞]/まして[副詞]/や
    (図3)

     元辞書中に該当単語が収録されていないときは、その単語には品詞が付かず、[ ]内が空欄となる。[ ]の単語を集めて、ファイルにし、この[ ]に品詞を入れる。それまでの辞書に、その巻の[ ]に品詞を付けたもの、即ち新異なり語集を加える。新異なり語集を加えた辞書で、その巻をもう一度品詞付けする。その結果できたファイルで多品詞の単語の品詞を選択する。(図4)

    いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]/更衣[名詞]/あまた[副詞]/さふらひ[動詞]/給[補助]/ける[助動]/なか[名詞]/に[助詞]/いと[副詞]/やむことなき[形容]/きは[名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/時めき[動詞]/給[助動]/あり[動詞]/けり[助動]/。/はしめ[名詞]/より[助詞]/我[代名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[助動]/る[助動]/御方¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給[補動]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]/下らう[名詞]/の[助詞]/更衣たち[名詞]/は[助詞]/まして[副詞]/やすから[形容]/す[助動]/。/あさゆふ[名副]/の[助詞]/宮つかへ[名詞]/に[助詞]/つけ[動詞]/て[助詞]/も[助詞]/人[名詞]/の[助詞]/心[名詞]/を[助詞]/のみ[助詞]/うこかし[動詞]/うらみ[名詞]/を[助詞]/おふ[動詞]/つもり[名詞]/に[助詞]/や[助詞]/あり[動詞]/けむ[助動]/いと[副詞]/あつしく
    (図4)

     ある巻が、すべて正確に品詞付けされてから、自動単語分割の時と同様に、その巻のすべての品詞つき異なり語の単語集をつくり、元の辞書に加える。重複同一単語は除き、同音異義語は、多品詞語とする。それまでの辞書に該当単語がない時、前巻と同様の作業をする。修正の後、再びその巻の異なり語集を作り新異なり語を元辞書に加え、次の巻の自動品詞付けを行なう。その作業を54帖分続ける。

  5. 検索作業の容易化
     検索作業を容易にするために、品詞情報付きデ−タに自動的に『源氏物語大成』と同じペ−ジと行番号をつけた。単語分割する前で、『大成』と行対応しているテキストの行末5文字を品詞付きテキストでサ−チして、そこに改行マ−クをいれ、ペ−ジと行番号を付ける。(図5)

    0005-01
    いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御更衣[名詞]/あまた[副詞]/さふらひ[動詞]/給[動敬]/ける[助動]/なか[名詞]/に[助詞]/いと[副詞]/やむことなき[形容]/きは
    0005-02
    [名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/時めき[動詞]/給[動敬]/あり[動詞]/けり[助動]/。/はしめ[名詞]/より[助詞]/我[代名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[動敬]/る[助動]/御方
    0005-03
    ¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給[動敬]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]/下らう[名詞]/の[助詞]/更衣たち
    0005-04
    [名詞]/は[助詞]/まして[副詞]/やすからす[連語]/。/あさゆふ[名副]/の[助詞]/宮つかへ[名詞]/に[助詞]/つけ[連語]/て[助詞]/も[助詞]/
    (図5)

  6. デ−タの結果と分析
     5.までの作業の結果、得られたデ−タのうち主なものを紹介する。

     イ)54帖すべての異なり単語の各巻毎の個数と割合
       この例として「あはれ」という語をとりあげてみる。「あはれ」には、(名詞)(感動詞)「あはれなり」(形容動詞)とあるが、その他に「あはれかる」(動詞)「あはれけなり」(形容動詞)「あはれさ」(名詞)「あはれしりかほなり」(形容動詞)「あはれひおはします」(動詞)「あはれふ」(動詞)を加えて、本文に出現する型は23通りであり、出現する型ごとのデ−タは、勿論作成されているが、更に一歩進んで、すべての型を加えて一語として各巻別の頻度をグラフ化すると(図6)になる。

    (図6)

     「横笛」の巻は、柏木の死を悼む内容であるし、「須磨」の巻は、主人公光源氏が、悲しい思いで都を離れる内容である。この結果からみると、「あはれ」という語は、巻の内容に密接に関係し、第一部第二部と宇治十帖との表現の違いという形にはなっていないと思われる。

      ロ)各巻の各品詞毎の個数と割合

      ハ)各巻のある品詞の中の単語別割合

    「桐壷」助詞(図8)
      番号  度数   かな漢字  (%)   0  10  20
       1     141  -   を      8.930 --****
       2      16  -   か      1.013  --
       3       1  -   かし     0.063  --
       4       5  -   かな     0.317  --
       5      12  -   こそ     0.760  --
       6       4  -   さへ     0.253  --
       7      11  -   し      0.697  --
       8      19  -   そ      1.203  --
       9      12  -   たに     0.760  --
      10      12  -   つゝ     0.760  --
      11     170  -   て      10.766  --****
      12     146  -   と      9.246  --****
      13      10  -   とも     0.633  -- 
      14       7  -   なから    0.443  --
      15      39  -   なと     2.470  --*
      16      11  -   なむ     0.697  --
      17      21  -   なん     1.330  --*
      18     247  -   に      15.643  --******  
      19      32  -   にて      2.027  --*
      20     261  -   の      16.529  --******* 
      21      15  -   のみ     0.950  --
      22     167  -   は      10.576  --****
      23       2  -   はかり    0.127  --
      24       2  -   はや     0.127  --
      25      14  -   まて     0.887  --
      26     162  -   も      10.260  --****
      27      15  -   や      0.950  --
      28      20  -   より     1.267  --*
      29       2  -   哉      0.127  --       
    

      ニ)ある品詞が文頭、文末にある割合

    「桐壷」(図9)
    名  詞が文頭にある割合 =  59.155%
    動    詞が文頭にある割合 =  10.798%
    形容動詞が文頭にある割合 =   0.939%
    助    詞が文頭にある割合 =   0.000%
    接 頭 語が文頭にある割合 =   0.000%
    接 尾 語が文頭にある割合 =   0.000%
    形 容 詞が文頭にある割合 =  10.329%
    感 動 詞が文頭にある割合 =   0.000%
    助 動 詞が文頭にある割合 =   0.000%
    連 体 詞が文頭にある割合 =   9.390%
    副    詞が文頭にある割合 =   8.451%
    接 続 詞が文頭にある割合 =   0.939%
    連    語が文頭にある割合 =   0.000%
    名詞副詞が文頭にある割合 =   0.000%
    敬語動詞が文頭にある割合 =   0.000%
    補助動詞が文頭にある割合 =   0.000%
    代名副詞が文頭にある割合 =   0.000%
    枕    詞が文頭にある割合 =   0.000%
    複合動詞が文頭にある割合 =   0.000%
    複合形容が文頭にある割合 =   0.000%
    



    普通名詞が文末にある割合 =   0.000%
    固有名詞が文末にある割合 =   0.000%
    形式名詞が文末にある割合 =   0.000%
    代 名 詞が文末にある割合 =   0.000%
    数    詞が文末にある割合 =   0.000%
    動    詞が文末にある割合 =  12.676%
    形容動詞が文末にある割合 =   1.408%
    助    詞が文末にある割合 =   9.390%
    接 頭 語が文末にある割合 =   0.000%
    接 尾 語が文未にある割合 =   0.000%
    形 容 詞が文未にある割合 =   6.103%
    感 動 詞が文未にある割合 =   0.000%
    助 動 詞が文未にある割合 =  49.765%
    連 体 詞が文未にある割合 =   0.000%
    副    詞が文未にある割合 =   0.000%
    接 続 詞が文末にある割合 =   0.000%
    連    語が文末にある割合 =   0.000%
    名詞副詞が文末にある割合 =   0.000%
    敬語動詞が文末にある割合 =  20.657%
    補助動詞が文末にある割合 =   0.000%
    代名副詞が文末にある割合 =   0.000%
    枕    詞が文末にある割合 =   0.000%
    複合動詞が文末にある割合 =   0.000%
    複合形容が文末にある割合 =   0.000%
    

      ホ)54帖品詞出現率の主成分分析

    (図10)
    ○:第一部 ×:第二部 △:宇治十帖

      ヘ)54帖品詞の接続関係の主成分分析

    (図11)
    ○:第一部 ×:第二部 △:宇治十帖

     (図10)(図11)の結果をみると宇治十帖とその他の巻がそれぞれ緩やかにまとまっていることがわかる。しかしこれだけでは簡単に、宇治十帖が他作家によって書かれたのか、紫式部の文体が変化していったのかわからない。他作家の作品や、紫式部日記の分析を待って結論したい。