[文献情報のデ−タベ−スとその利用に関する研究会報告資料 '93/3/16]

源氏物語の計量分析(1)

− 源氏物語大成に基づく品詞情報付きデ−タベ−ス −

                                                         琉球大学  上田 裕一
                                                               上田 英代
                                                     神戸学院大学  樺島 忠夫
                                                   統計数理研究所  村上 征勝
                                                         法政大学  仲川 隆弘
<計量分析の目的>
 源氏物語は、言うまでもなくあらゆる分野から研究されている。膨大なこれまでの研究をふまえて、より精密で総合的な分析をするために、統計的手法を用いた計量分析を行う。源氏物語について解析を行うためには、まず品詞情報付きデ−タベ−スが必要不可欠なものであり、このデ−タベ−スを用いることにより、54帖という多量のデ−タを一気に処理することができる。巻ごとの使用単語一つ一つの接続関係や、使用頻度、傾向、品詞頻度等は、即座に求められる。源氏物語の文体が、最初から最後まで同じ傾向を持つのか、時間的変化はあるのか、すべての部分が同一作家によって書かれたといえるのか等々、過去の様々な研究の検証を行なうと同時に、独自の分析結果を出してゆくつもりである。同時代他文献にもこの方法を用い、源氏物語との比較を行なうことによって平安期の日本語の特徴等を計量的に明らかにしてゆく。

<昨年までの成果>
 昨年3月までに、本研究会で発表したデ−タベ−ス作成までの概略は、以下の項目についてである。プログラミングは、UNIXのC−SHELLプログラミング、Cランゲ−ジで作成した。

 <1>『源氏物語大成』の自動単語分割
 <2>自動単語分割への作業経過
   1)デ−タ入力(OCRによるデ−タ入力)
   2)手作業による句点分割
   3)分割用辞書づくり
          イ)手作業による分割
          ロ)フロッピ−版『古典対照語い表』(笠間書院)より源氏使用単語の
              取り出し
          ハ)イ)ロ)によって得られた単語を合成し、動詞の終止形に活用語尾を
              つけて分割用辞書をつくる。
   4)自動単語分割
          イ)テキストに読点をつける。
          ロ)合成辞書でイ)のテキストを分割する。
 昨年は、自動的に単語分割する際に、辞書の中に終止形で入っている動詞の活用語尾をを加えるところまでで終わっているが、その後すべての活用する品詞(形容詞、形容動詞、助動詞)の活用語尾を辞書の中に入れ、できあがった辞書で分割した。この時、ある単語の終止形に活用語尾を加えるプログラムはBASICで作り、それぞれの品詞ごとに自動的に書き加えた。
 更に一巻分割するごとに手修正し、その巻の単語集を作り、元の分割用辞書にない単語を追加していった。かなだけの辞書に、漢字交じりの単語や固有名詞等が増加してゆく訳である。又隣接している巻は比較的内容が近かったりするので、一巻ごとの辞書用単語の元辞書への追加は、分割の正確さを増して行くことになった。しかし、助詞、助動詞等の一語、二語の分割にはまだあいまいさが残った。これは、今後品詞接続の前後関係をみて単語の分割場所を認定するという高度なプログラムの開発という課題として残った。最終的に合成辞書による自動分割で、夢の浮橋は80%の正確さであった。

/いつれ/の/御時にか/。/女御/更衣/あまた/さふらひ給/ける/な/
かに/いと/やむことなきゝは/には/あら/ぬか/すくれて/時
ぬき給/ありけり。/はしめより/我はと/思あかり/給へる/御方¥
/めさましき/ものに/おとしめ/そねみ給/。/おなし/ほと/それ/
より/下らうの/更衣/たちは/まして/やすからす/。/あさゆふの
/宮つかへに/つけても/人の心/をのみ/うこかし/うらみを/おふ/
つもりにや/ありけむ/いと/あつしく/なりゆき/もの心ほそけに
/さとかち/なるを/いよ¥¥/あかす/あはれなる物に/おもほして/
人の/そしりをも/え/はゝからせ/給はす/世の/ためしにも/なりぬ/へ
き/御もてなし也/。/かんたちめ/うへ人/なとも/あいなく/めを/
そはめ/つゝ/いと/まはゆき/人の御/おほえなり/。/もろこしにも
/かゝる/ことの/おこり/にこそ/世も/みたれ/あしかり/けれ
と/やう¥¥/あめのしたにも/あちきなう/人の/もてなやみくさに/
なりて/楊貴妃の/ためしも/ひきいてつ/へく/なりゆくに/いと
/はしたなき/こと/おほかれと/かたしけなき/御心はへの/たく
ひなきを/たのみ/にて/ましらひ給。/ちゝの/大納言は/なくなり
<図1> 桐壷 自動分割テキスト

/いつれ/の/御時/に/か/。/女御/更衣/あまた/さふらひ/給/ける/なか
/に/いと/やむことなき/きは/に/は/あら/ぬ/か/すくれ/て/時めき
/給/あり/けり。/はしめ/より/我/は/と/思あかり/給へ/る/御方¥
/めさましき/もの/に/おとしめ/そねみ/給/。/おなし/ほと/それ
/より/下らう/の/更衣たち/は/まして/やすからす/。/あさゆふ
/の/宮つかへ/に/つけ/て/も/人/の/心/を/のみ/うこかし/うらみ/を
/おふ/つもり/に/や/あり/けむ/いと/あつしく/なりゆき/もの心ほそけに
/さとかちなる/を/いよ¥¥/あか/す/あはれなる/物/に/おもほし/て
/人/の/そしり/を/も/え/はゝから/せ/給は/す/世のためし/に/も
/なり/ぬ/へき/御もてなし/也/。/かんたちめ/うへ人/なと/も/あいなく
/め/を/そはめ/つゝ/いと/まはゆき/人/の/御おほえ/なり/。/もろこし
/に/も/かゝる/こと/の/おこり/に/こそ/世/も/みたれ/あしかり/けれ
/と/やう¥¥/あめのした/に/も/あちきなう/人/の/もてなやみくさ
/に/なり/て/楊貴妃/の/ためし/も/ひきいて/つ/へく/なりゆく
/に/いと/はしたなき/こと/おほかれ/と/かたしけなき/御心はへ/の
/たくひなき/を/たのみ/に/て/ましらひ/給。/ちゝ/の/大納言/は
<図2> 桐壷 修正済みテキスト

<自動品詞付け>
 1)自動分割されたテキストの修正
 2)品詞付け用辞書づくり
  @フロッピ−版『古典対照語い表』の利用
    フロッピ−版『古典対照語い表』より源氏に使用されている語のみ抜き出し
    て、品詞つき辞書をつくる。

あ,案,カ,,,,,,,,1,,,,,,,,
あ,彼,,,,,,,,,3,,,,,,,,
ああ,鳴呼,,感,,,,,,,1,1,,,,,,,,,
あいきやう,愛敬,カ,,,1,,1,,1,14,6,,,,,,,
あいきやうつく,愛敬付,コ,動四,,,,1,,1,42,7,,,,,,,
あいしふ,愛執,カ,,,,,,,,1,,,,,,,
あいたちなし,,,形,,,,,,,3,,,,,,,
あいたる,,コ,動下ニ,,,,,,,,2,,,,,,,,
あいなし,愛撫,,形,,5,,,1,4,101,9,8,,,,,,
あいなたのみ,,,,,,,,1,,3,,,,,,,,
あいなたのめ,,,,,,,,,,1,,,,,,,,
あう,奥,カ,,,,,,,2,10,2,1,,,,,,
あえか,,,形動,,,,,,3,17,,,,,,,,
あえもの,肖物,,,,,,,,,5,,,,,,,,
あか,閼伽,カ,,,,,,,,9,,,,,,,,
あか,吾,,連体,,1,,,,,16,2,4,,,,,1,82
あかいろ,赤色,,,,,,2,,6,5,6,1,,,,,,
あかき,赤木,,,,,,,,,1,,,,,,,,
あかきぬすかた,赤衣姿,,,,,,,,,,1,,,,,,,,
あかくちは,赤朽葉,,,,,,,,,,1,,1,,,,,,
           
あ,[代名]
ああ,[感動]
あいきやう,[名詞]
あいきやうつく,[動詞]
あいしふ,[名詞]
あいたちなし,[形容]
あいたる,[動詞]
あいなし,[形容]
あいなたのみ,[名詞]
あいなたのめ,[名詞]
あう,[名詞]
あえか,[形動]
あえもの,[名詞]
あか,[名詞]
あか,[連体]
あかいろ,[名詞]
あかき,[名詞]
あかきぬすかた,[名詞]
あかくちは,[名詞]
    <図3>『古典対照語い表』        <図4> 源氏物語使用単語 品詞付き辞書

  A活用形のある語に活用をつける。
    フロッピ−版『古典対照語い表』には活用語は終止形でのっているので、そ
     の語幹に活用語尾をつける。ただし、たとえば動詞四段活用の終止形と連体形
     は同じであるなど、活用語尾が同じものは一種類だけ加える。自動分割の時に
     用いたと同じように一巻ごとに、辞書にない異なり単語を書き加えてゆく。

    あ,[代名]
    ああ,[名詞]
    あいきやう,[名詞]
    あいきやうつか,[動詞]
    あいきやうつき,[動詞]
    あいきやうつく,[動詞]
    あいきやうつけ,[動詞]
    あいきやうなから,[形容]
    あいきやうなけなら,[形動]
    あいきやうなけなり,[形動]
    あいきやうなけなる,[形動]
    あいきやうなけなれ,[形動]
    あいきやうなけに,[形動]
<図5> 活用語尾追加辞書

  B同音異義語には複数の品詞をつける。

  あか,[動詞]
  あか,[名詞]
  あか,[連体]
  あかき,[形容]
  あかき,[名詞]
  あかし,[形容]
  あかし,[動詞]
  あかし,[名詞]
  あかり,[動詞]
  あかり,[名詞]
  あかれ,[動詞]
  あかれ,[名詞]
  あき,[動詞]
  あき,[名詞]
  あか,[動詞][名詞][連体]
  あかき,[形容][名詞]
  あかし,[形容][動詞][名詞]
  あかり,[動詞][名詞]
  あかれ,[動詞][名詞]
  あき,[動詞][名詞]
  あけくれ,[動詞][名詞]
  あさき,[形容][名詞]
  あさけ,[形容][名詞]
  あさけれ,[形容][動詞]
  あさり,[動詞][名詞]
  あし,[形容][名詞]
  あしこ,[代名][名詞]
  あしこもと,[代名][名詞]
<図6>        <図7> 多品詞単語表

 3)自動品詞づけ作業経過
  @正確に分割されたテキストを用いて適切な品詞をつける。
/いつれ[  ]/の[助詞][名詞]/御時[  ]/に[助詞][助動][動詞][名詞]
/か[助詞][代名][名詞]/。
/女御[  ]/更衣[  ]/あまた[副詞]/さふらひ[助動][動詞][名詞]
/給[助動]/ける[助動]
/なか[動詞][名詞]/に[助詞][助動][動詞][名詞]/いと[副詞][名詞]
/やむことなき[形容]/きは[名詞]/に[助詞][助動][動詞][名詞]
/は[助詞][助動][名詞]
/あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/て[助詞]
[助動][名詞]/時めき[  ]
/給[  ]/あり[動詞][名詞]/けり[助動]/。/はしめ[動詞][名詞]/
より[助詞][動詞]
/我[  ]/は[助詞][助動][名詞]/と[助詞][助動][副詞][名詞]/
<図8> 自動品詞付け結果@(桐壷)
     A修正
      辞書の中に該当単語がない時、[  ]内が空欄となる。
    [  ]の単語を集めて、ファイルにする。     例 err1

  いつれ,[  ]
  御時,[  ]
  女御,[  ]
  更衣,[  ]
  給,[  ]
  時めき,[  ]
  給,[  ]
  我,[  ]
  思あかり,[  ]
  給へ,[  ]
  御方¥,[  ]
  給,[  ]
  下らう,[  ]
<図9>辞書に該当単語が無いもの(桐壷)

       この[  ]に品詞を入れる。
    それまでの辞書に、その巻の新異なり語集を加える。
    新異なり語集を加えた辞書で、その巻をもう一度品詞付けする。次にそれを
    印刷して紙上修正する。

  いつれ,[代名]
  もの心ほそけに,[形動]
  思あかり,[動詞]
  御方¥,[名詞]
  御時,[名詞]
  御もてなし,[名詞]
  更衣,[名詞]
  更衣たち,[名詞]
  下らう,[名詞]
  心,[名詞]
  給,[助動]
  給は,[助動]
  給へ,[助動]
<図10> <図9>の単語に品詞付けしたもの(桐壷)

多品詞の語を文脈の中に入れて品詞を決定する。

/いつれ[代名]/の[助詞][名詞]/御時[名詞]/に[助詞][助動][動詞][名詞]
/か[助詞][代名][名詞]/。
/女御[名詞]/更衣[名詞]/あまた[副詞]/さふらひ[助動][動詞][名詞]
/給[助動]/ける[助動]
/なか[動詞][名詞]/に[助詞][助動][動詞][名詞]/いと[副詞][名詞]
/やむことなき[形容]/きは[名詞]/に[助詞][助動][動詞][名詞]
/は[助詞][助動][名詞]
/あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/て[助詞]
[助動][名詞]/時めき[動詞]
/給[助動]/あり[動詞][名詞]/けり[助動]/。/はしめ[動詞][名詞]/
より[助詞][動詞]
/我[代名]/は[助詞][助動][名詞]/と[助詞][助動][副詞][名詞]/
思あかり[動詞]
<図11> 自動品詞付け結果A(桐壷)

いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]
/更衣[名詞]/
あまた[副詞]/さふらひ[動詞]/給[助動]/ける[助動]/なか[名詞]/に[助詞]
/いと[副詞
]/やむことなき[形容]/きは[名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]
/か[助詞
]/すくれ[動詞]/て[助詞]/時めき[動詞]/給[助動]/あり[動詞]/けり[助動]/。
/はしめ
[名詞]/より[助詞]/我[代名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[助動]
/る[
助動]/御方¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]
/そねみ
[動詞]/給[助動]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]
/下らう[名詞]
<図12> 品詞修正済みテキスト(桐壷)
  Bある巻がすべて正確に品詞付けされてから、その巻のすべての異なり語の単    語集をつくり、元の辞書に加える。 重複同一単語は除き、同音異義語は、多品詞語とする。       C追加された辞書を使って巻2に品詞付けをする。     それまでの辞書に該当単語がない時、前巻と同様の作業をする。 その作業を54帖分続ける。 4)辞書の工夫 辞書の単語が増加すると同時にある語の品詞も増加してゆくので、約5巻ごとに辞書の点検をする。 たとえば、以下のように簡略化する。ただし、多品詞語は、プリントする時に大文字化する。
  いと,[副詞][名詞]       →  いと,[副詞]
  とし,[形容][名詞]       →  とし,[名詞]
  に,[助詞][助動][名詞][動詞]  →  に,[助詞][助動]
<ペ−ジと行付け>   コンピュ−タで、大成本のOCR修正済み句点付きテキストを参照して、品詞付きテキストに 大成本のペ−ジと行を付ける。
0005-01
いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]/更衣[名詞]/
あまた[副詞]/さふらひ[動詞]/給[助動]/ける[助動]/なか[名詞]/に[助詞]/いと[副詞]
/やむことなき[形容]/きは
0005-02
[名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/
時めき[動詞]/給[動敬]/あり[動詞]/けり[助動]/。/はしめ[名詞]/より[助詞]/我[代
名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[動敬]/る[助動]/御方
0005-03
¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給
[動敬]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]/下らう[名詞]/の[助詞]
/更衣たち[名詞]
0005-04
/は[助詞]/まして[副詞]/やすからす[連語]/。/あさゆふ[名副]/の[助詞]/宮つかへ
[名詞]/に[助詞]/つけ[動詞]/て[助詞]/も[助詞]/人[名詞]/の[助詞]/心[名詞]/を[助
詞]/のみ[助詞]/うこかし[動詞]/うら
0005-05
み[名詞]/を[助詞]/おふ[動詞]/つもり[名詞]/に[助動]/や[助詞]/あり[動詞]/けむ
[助詞]/いと[副詞]/あつしく[形容]/なりゆき[動詞]/もの心ほそけに[形動]/さとかち

0005-06
る[形動]/を[助詞]/いよ¥¥[副詞]/あか[動詞]/す[助詞]/あはれなる[形動]/物[名詞]
/に[助詞]/おもほし[動詞]/て[助詞]/人[名詞]/の[助詞]/そしり[名詞]/を[助詞]/も
[助詞]/え[副詞]/はゝから[動詞]/せ[助動]/給
<図13> ページ、行付きテキスト(桐壷)

以上の作業の後、デ−タ作成プログラムにかけて、以下の項目について、結果が得られた。

 イ、単語の長さのヒストグラム
 ロ、各卷の文の長さと文の数
 ハ、単語の前後関係
 ニ、ある品詞が文頭、文末にある割合
 ホ、単語別の度数とヒストグラム
 ヘ、各品詞別、度数付き単語集
 ト、各品詞の度数と出現率
 チ、品詞の相対出現率
 リ、単語の出現回数
 ヌ、各品詞ごとの接続関係