源氏物語の計量分析(2)

○村上征勝*、上田英代**、上田裕一***、今西祐一郎****、樺島忠夫*****

(*統計数理研究所、**古典総合研究所、***もとぶ野毛病院、****九州大学、*****神戸学院大学)

  1. 目的
     「源氏物語」は、従来より様々の観点から研究されている。本文研究に関しては昨今種々の写本が系統的に整備され、写本毎の本文校訂と研究はより精密になって来ている。
     筆者等は、昨年末に『源氏物語大成』の品詞情報つきデータベースを作成したが、ここでの総語数は38万余語で、データベースとしてもかなり大規模なものである。異なる系統間の本文研究の為にはすべての系統の本文がデータベース化され、コンピュータで迅速に比較できれば理想的である。しかし、一口にデータベース化といっても、翻刻され校訂された活字本文を単に機械可読化しただけのプレーンなデータベースでは、異なる系統の本文を比較するには困難が伴う。やはり、同一の基準で単語分割され、品詞情報もついている方がよい。(ここでは同一の基準で区切った語を一応単語と呼ぶ)
     次に「源氏物語」の内容について考えてみると、文体の微妙な違いや和歌の巧拙などから、宇治十帖他作家説や複数作家説が存在し、構成の乱れから成立過程や執筆順序への疑問が生じ、それがいくつかの巻や部分の後期挿入説となっている。
     こうした諸説に対し、統計的手法を用いた計量分析を行って疑問の解決を試みることが本研究の目的である。
     また、本居宣長の『手枕』と、『紫式部日記』の品詞情報付きデータベースもほぼ完成し、『山路の露』と『雲隠6帖』の単語分割が終了しているので、文体の比較などの分析も試みる。

  2. 「源氏物語」の計量的概観
     このデータベースから得られる各種の情報のうち、名詞の使用率、動詞の使用率、助動詞の使用率をグラフ化すると以下のようになる(グラフ1、2、3)。

    名詞の出現頻度/総語数
    (グラフ1)

    動詞の出現頻度/総語数
    (グラフ2)

    助動詞の出現頻度/総語数
    (グラフ3)

     このグラフを見るとわずかながら名詞と動詞の使用率、名詞と助動詞の使用率の間には負の相関、動詞と助動詞の使用率の間には正の相関があることがわかる。(名詞と動詞の使用率の間の相関係数は-0.43、名詞と助動詞の使用率の間の相関係数は-0.62、動詞と助動詞の使用率の間の相関係数は0.53、であった)

  3. 初出単語について
     次に、各巻の執筆順序を探る一つの試みとして、初出単語について調べてみる。最初に執筆された巻の異なり語はすべてこの物語の初出単語となり、次に執筆された巻の総異なり語のうち、第1巻で使用された単語を除いたものが次の巻の初出単語となり、以下同様に初出単語が求められる。
     「源氏物語」は、長編的な巻々の中に短編的な巻々が混在し、同じ主人公を持ちながら連続ドラマの中に別のエピソードが独立して語られているかの様である。長編的巻々の中に短編的巻々が混在するのを説明するものとして、巻々の後期挿入説が提出された。また、後半の十帖は宇治を舞台とした一つの物語となっている。
     「源氏物語」が現在の巻順通りに執筆されたとすると、新たな登場人物を加え、新たな物語が展開する巻では初出単語が増加すると予想された。次のグラフは現在の巻番号順に並べたときの初出単語の各巻における出現率を示したものである。(グラフ4)

    各巻の初出単語の割合(巻順)
    (グラフ4)

       このグラフをみると新たな構想を持って書き始められた巻が必ずしも初出単語が多い訳ではないことがわかる
     たとえば宇治十帖が始まる第45番目の巻「橋姫」を見ても初出単語が増えている訳ではない。初出単語の率が上がっているのは主として1000語以下の短い巻である。
     昭和14年青柳秋生氏は巻の執筆順序について最初から23巻までを検討の対象とし、一つの説を提案した。1〜23巻までの登場人物を詳細に調べ、「源氏物語」の中で同時期の事件が帚木グループ系列と若紫グループ系列では、お互いに全く関連がないことから5,7,8,9,10,11,12の前半の巻を初めに書き、この辺で前に戻り2,3,4,6と書き12の後半を書いて13〜21と続けて1を総序の形で書いたとする説である。
    この説に従って各巻を並び換えたのが次のグラフである(グラフ5)。

    各巻の初出単語の割合(青柳説)
    (グラフ5)

     次に、昭和25年武田宗俊氏は青柳説を更に発展させるものとして、33巻までを検討の対象とした。武田氏の説は青柳氏と同様に登場人物について調べ33巻までの執筆順序は、まず1,5,7〜14,17〜21,32,33を書き、あとから2〜4,6,15,16,22〜31の巻々を挿入していったとするものである。この説に従って各巻を並べ変えて調べたのが次のグラフである(グラフ6)。

    各巻の初出単語の割合(武田説)
    (グラフ6)

     グラフ5と6をみてもグラフ4と大きな違いがある訳ではなく、又新たな物語の書き初めの巻で初出単語が増加している訳ではないので、青柳説あるいは武田説を証明することはできなかった。

  4. すべての巻に出現する単語
     「源氏物語」の54帖すべての巻に出現する単語は以下の39語である。

    [名詞]こと,ほと,心,人
    [動詞]あら,おほし
    [助詞]か,かし,こそ,そ,て,
        と,なと,に,の,は,はかり,も,や,を
    [助動詞]けり,す,たり,たる,    
              な,なる,なれ,に,ぬ,へし,れ
    [連体詞]かの,この
    [副詞]いと,え,すこし
    [動詞・補助動詞]きこえ,給,給へ
    

     活用のある語に関しては、このリストに載っている活用形で全54帖に出現している。同一単語で活用形が違うだけの単語が、出現しているかどうかを調べると、全54帖で出現する単語はもっと増えるはずである。たとえば[動詞]の「おもふ」や「みる」「いふ」「のたまふ」などである。
     この39語のうち、名詞の4語について調べてみる。出現度数の多い順に並べてみると「こと」、「人」、「心」、「ほと」である。これは表記の形だけを機械的に集めて数えてあるが、これをもう少し詳細に見てみる。
     まず、「こと」であるが「事柄」の意味であり、「言」「琴」の意味のものは含んでいない。更に、表記が「事」(まれに「言」の意のものも混在している)で意味上「事柄」の意味のものを「こと」と合わせて巻毎に出現する割合を求めたグラフが次のものである。(グラフ7)

    事・こと/総語数
    (グラフ7)

     次に、「人」は漢字表記で全54帖に出現するのであるが、これにひらがな表記の「ひと」を加えてある。(グラフ8)

    人・ひと/総語数
    (グラフ8)

     「心」も同様に漢字表記で全54帖に出現するのであるが、このグラフにはひらがな表記の「こころ」と「御心」の数も加えてある。(グラフ9)

     「心」に関しては更に複合語について詳細に調べる予定である。「心」をもとにした多様な複合語が多いからである。

    心・こころ/総語数
    (グラフ9)

     「ほと」も同様に漢字表記の「程」も含めて数えてある。(グラフ10)

    程・ほと/総語数
    (グラフ10)

     この四つの表記について全巻における出現数を調べる過程で、従来より写本に様々の問題があるとされている第51番目の「浮舟」の巻では、ひらがなの「こころ」と「ひと」の率が漢字の「心」「人」に対して他の巻の割合より圧倒的に高いことがわかった。ある写本が、どの系統の写本なのかを決める手段の一つとして、ある単語の表記がひらがなか漢字かを調べることが重要な手がかりとなりそうである。
     また、『フロッピィ版古典対象語い表』の統計表によれば、名詞の出現率で上位の4語をとると『枕草子』では「ひと」「もの」「こと」「ほと」の順であり、『蜻蛉日記』では「ひと」「こと」「ほと」「もの」の順である。「源氏物語」では第三位に「心」が入っていることを考えると紫式部にとって「心」は重要なテーマであった訳である。
     今後『紫式部日記』『手枕』『山路の露』『雲隠6帖』との詳細な文体比較を行ってゆく予定である。


参考文献

   「源氏物語の計量分析のためのデータベース作成」
        (人文学と情報処理 NO.2      …上田裕一・上田英代・村上征勝)

「源氏物語執筆の順序」 (国語と国文学 S14,8・9月号 …青柳秋生)

「源氏物語の最初の形態」 (文学 S25,6・7月号 …武田宗俊)