上田英代 上田裕一 今西祐一郎 樺島忠夫 村上征勝
<あらまし>
「源氏物語」の写本には各種あり、それぞれについて詳細に研究が進められてきたが、従来の文献学的研究を更に発展させる上で、各写本のデータベースがありコンピュータ上で比較できれば、より迅速にかつ総括的に研究できるであろう。
従来の「源氏物語」研究とは異なった、統計的手法を用いた計量分析という全く新たな視点からの解析を試みるためには、本文が入力されただけのデータベースから、一歩進めて単語毎に分割され、品詞情報のついたデータベースが必要である。そこで『源氏物語大成』を選び、品詞情報つきデータベースを完成させた。
一昨年の本シンポジウムで品詞情報つきデータベース作成の途中経過を報告したが、その後の経過と問題点について述べ、更にいくつかの計量分析の結果について報告する。
<キーワード>
源氏物語 源氏物語大成 単語分割 品詞情報つきデータベース 計量分析
1,はじめに
一昨年は、『大成』の本文に『源氏物語(日本古典文学大系)』を参考にして、句点をいれたテキストを、1〜8巻までの手作業分割による単語集と、『フロッピィ版古典対照語い表』の見出し語を合成した分割用辞書で自動単語分割した結果までを報告した。その後『大系』を参考にして、『大成』の本文に更に読点を入れ、分割用辞書の活用語にすべて活用語尾を加えるなど、辞書の充実を計り、自動単語分割の正確さを増した。この辞書を用いて自動単語分割した本文を手作業で正しく修正し、そのテキストに自動的に品詞を付けた。自動品詞つけしたテキストを巻順に修正し、54帖すべての品詞つけを終えた。このテキストを解析プログラムにかけ、いくつかの計量分析を行なった。ここではこの自動単語分割と自動品詞つけの経過と問題点について述べ、作成されたデータと計量分析の結果を報告する。
2,自動単語分割
『大成』の本文に読点を入れたのは、読点のところでは必ず単語が切れるので、自動単語分割の正確さが増すためである。次に分割用辞書の中で、助動詞も含め活用する単語のすべてに活用語尾をつけ、分割用辞書に追加した。これは、『語い表』の見出し語が自立語のみで、活用語は終止形だけ収録されているので、終止形以外の形や、助動詞の各活用形の単語などが分割されないで残るからである。次に、それまでの分割結果で、1文字の助詞などの単語の分割は不正確だったので、1文字の単語は、最初の分割用辞書の中から削っておいた。この辞書で第1巻「桐壷」から自動単語分割を行なった結果が図1である。1文字の単語で、分割されていないものが多い。この「桐壷」の巻を修正し、異なり単語集をつくり最初の分割用辞書にない単語があれば、分割用辞書に追加する。単語を追加した2番目の分割用辞書で第2巻「帚木」を自動単語分割する。「帚木」を修正し、異なり単語集をつくり、2番目の分割用辞書にない単語を辞書に追加し、3番目の辞書とする。3番目の辞書で第3巻「空蝉」を自動単語分割する。同様に新異なり単語を巻毎に順に追加し、次の巻を分割してゆく。最終巻の「夢の浮橋」の自動単語分割は、80%の正確さであった。
<=いつれ->の<=御時->にか。<=女御->・<=更衣-><=あまた-><=さふらひ->給<=ける-><=なかに->、<=いと->、<=やむことなき->ゝは<=には-><=あら-><=ぬか->、<=すくれ->て<=時めき->給<=ありけ->り。<=はしめよ->り、我はと、<=思あかり-><=給へる-><=御方¥->、<=めさましき-><=もの->に<=おとしめ-><=そねみ->給。<=おなし-><=ほと->、<=それ-><=より-><=下らう->の<=更衣-><=たちは->、<=まして->、<=やすからす->。<=あさゆふ->の<=宮つかへ->に<=つけて->も、人の心<=をの->み<=うこかし->、<=うらみ->を<=おふ-><=つもり->にや<=ありけ->む、<=いと->、<=あつしく-><=なりゆき->、<=もの心ほそけに-><=さとかち-><=なる->を、<=いよ¥¥-><=あかす-><=あはれなる->物に<=おもほし->て、 |
<=やま-><=に-><=おはし-><=て->、<=れい->、<=せ-><=させ-><=給-><=やうに->、<=經-><=佛-><=なと->、<=くやう-><=せ-><=させ-><=給->。<=又-><=の-><=日-><=は->、<=よかは-><=に-><=おは-><=したれ-><=は->、<=そうつ->、<=おとろき-><=かしこまり-><=きこえ給->。<=としころ->、<=御いのり-><=なと-><=つけ->、<=かたらひ-><=たまひ-><=けれ-><=と->、<=ことに->、<=いと->、<=したしき-><=ことはな-><=かり-><=ける-><=を->、<=この-><=たひ->、<=一->品<=の-><=宮-><=の->、<=御心ち-><=の-><=ほと-><=に->、<=さふらひ-><=給へる-><=に->、<=すくれ-><=たまへる-><=けん-><=物し-><=給-><=けり-><=と->、<=み-><=たまひ-><=て-><=より->、<=こよなう-><=たう-><=とひ-><=たまひ-> |
3,自動品詞つけ
『語い表』の見出し語を品詞つきで取り出し、最初の品詞つけ用辞書とする。この時の見出し語はひらがなのみである。同音で違う品詞のものは、一つの単語の後ろに複数の品詞をつけ多品詞語とする。この辞書で単語分割修正済みのテキストに自動品詞つけを行なう。品詞つけ用辞書に単語(漢字混じりの単語など)がないものは[ ]内が空欄となり、いくつかの単語には、複数の品詞がついてくる(図3)。[ ]内空欄の単語は、この巻の新異なり単語なので、これらを集め品詞をつけ、最初の品詞つけ用辞書に追加する。多品詞の単語は適切な品詞を選択する(図4)。新異なり単語を追加した辞書で次の巻の自動品詞つけを行なう。このように一巻自動品詞つけする度に修正し(図5)、新異なり単語を品詞つけ用辞書に追加してゆく。自動単語分割と同様、自動品詞つけも順に正確さを増していき、54帖すべてに品詞をつけ終わった。
/いつれ[ ]/の[助詞][名詞]/御時[ ]/に[助詞][助動][動詞][名詞]/か[助詞][代名][名詞]/。/女御[ ]/更衣[ ]/あまた[副詞]/さふらひ[助動][動詞][名詞]/給[助動]/ける[助動]/なか[動詞][名詞]/に[助詞][助動][動詞][名詞]/いと[副詞][名詞]/やむことなき[形容]/きは[名詞]/に[助詞][助動][動詞][名詞]/は[助詞][助動][名詞]/あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/て[助詞][助動][名詞]/時めき[ ]/給[ ]/あり[動詞][名詞]/けり[助動]/。/はしめ[動詞][名詞]/より[助詞][動詞]/我[ ]/は[助詞][助動][名詞]/と[助詞][助動][副詞][名詞]/思あかり[ ]/給へ[ ]/る[助動]/御方¥[ ]/めさましき[形容]/もの[名詞]/に[助詞][助動][動詞][名詞]/おとしめ[動詞]/そねみ[動詞][名詞]/給[ ]/。/おなし[形容]/ほと[名詞]/それ[代名][動 |
/いつれ[代名]/の[助詞][名詞]/御時[名詞]/に[助詞][助動][動詞][名詞]/か[助詞][代名][名詞]/。/女御[名詞]/更衣[名詞]/あまた[副詞]/さふらひ[助動][動詞][名詞]/給[助動]/ける[助動]/なか[動詞][名詞]/に[助詞][助動][動詞][名詞]/いと[副詞][名詞]/やむことなき[形容]/きは[名詞]/に[助詞][助動][動詞][名詞]/は[助詞][助動][名詞]/あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/て[助詞][助動][名詞]/時めき[動詞]/給[助動]/あり[動詞][名詞]/けり[助動]/。/はしめ[動詞][名詞]/より[助詞][動詞]/我[代名]/は[助詞][助動][名詞]/と[助詞][助動][副詞][名詞]/思あかり[動詞]/給へ[助動]/る[助動]/御方¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞][助動][動詞][名詞]/おとしめ[動詞]/そねみ[動詞][名詞]/給[助動]/。/おなし[形容]/ほと[名詞]/それ[代名][動 |
いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]/更衣[名詞]/あまた[副詞]/さふらひ[動詞]/給[助動]/ける[助動]/なか[名詞]/に[助詞]/いと[副詞]/やむことなき[形容]/きは[名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/時めき[動詞]/給[助動]/あり[動詞]/けり[助動]/。/はしめ[名詞]/より[助詞]/我[代名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[助動]/る[助動]/御方¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給[補動]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]/下らう[名詞]/の[助詞]/更衣たち[名詞]/は[助詞]/まして[副詞]/やすからす[連語]/。/あさゆふ[名副]/の[助詞]/宮つかへ[名詞]/に[助詞]/つけ[動詞]/て[助詞]/も[助詞]/人[名詞]/の[助詞]/心[名詞]/を[助詞] |
4,分析用データの作成と計量分析
品詞情報つきテキストをプログラムにかけると、各巻の文の数、平均文長、品詞の使用率(図6)、品詞毎の単語の使用率(図7)、単語の前後関係、文頭文末の品詞の使用率、等々のデータが作成される。また、特徴的な単語の使用率のグラフや自立語の承接関係を一覧できるデータ等を作っている。更に、各種類のデータを使って諸々の計量分析を進めている。
**** 品詞の使用率 **** 第54巻 「夢浮橋」 品 詞 (%) 0 5 10 15 20 25 30 35 名 詞 18.303 --******************* 動 詞 18.053 --******************* 形容動詞 2.329 --** 助 詞 32.085 --******************************** 接 頭 語 0.000 -- 接 尾 語 0.000 -- 形 容 詞 4.659 --***** 感 動 詞 0.083 -- 助 動 詞 14.587 --*************** 連 体 詞 0.083 -- 副 詞 4.798 --***** 接 続 詞 0.111 -- 連 語 0.804 --* 名詞副詞 0.721 --* 敬語動詞 3.023 --*** 補助動詞 0.305 -- |
**** 助 詞 **** 第54巻 「夢浮橋」 番号 かな漢字 (%) 0 10 20 30 1 - か 1.642 --* 2 - かし 0.432 -- 3 - かな 0.432 -- 4 - かは 0.173 -- 5 - こそ 1.988 --* 6 - さへ 0.086 -- 7 - し 0.086 -- 8 - そ 0.691 -- 9 - たに 0.259 -- 10 - つゝ 0.173 -- 11 - て 14.434 --****** 12 - と 13.224 --**** 13 - とも 0.346 -- 14 - な 0.086 -- 15 - なから 0.605 -- 16 - なと 3.976 --** 17 - なむ 0.086 -- 18 - なん 3.025 --* 19 - に 16.768 --******* 20 - の 9.767 --**** 21 - のみ 0.259 -- 22 - は 12.532 --***** 23 - はかり 0.346 -- 24 - へ 0.086 -- 25 - まて 0.778 -- 26 - も 7.865 --*** 27 - や 1.901 --* 28 - より 0.864 -- 29 - を 7.001 --*** 30 - 物を 0.086 -- |
5,他文献との比較
本居宣長自筆本『手枕』を、『大成』と同様の手順で品詞情報つきデータベースを作成し、比較すると『手枕』のみに使われている単語等は、即抽出することができる(図8)。現在『紫式部日記(日本古典文学大系)』の品詞情報つきデータベースが完成し、計量分析を行なっている。また『山路の露』『雲隠れ六帖』のデータを作成中である。
単 語 | 初稿 | 再稿 | 単 語 | 初稿 | 再稿 |
---|---|---|---|---|---|
いさきよく | 〇 | 〇 | みかとかね | 〇 | 無 |
*うちかすみ | 〇 | ○ | ゆきかくれ | ○ | ○ |
うちまけかたく | 〇 | 〇 | 見え行 | 無 | 〇 |
うちましりゆく | 〇 | 〇 | *御かしつきくさ | ○ | 〇 |
うちをきかたく | 〇 | 〇 | *御みかうし | 〇 | 〇 |
おもほしめさ | 〇 | 〇 | *御ゆるされ | 〇 | 〇 |
*かゝやかしう | 〇 | 〇 | 手まくら | 〇 | 〇 |
そゝ | 〇 | 無 | 忍ひより | 〇 | 〇 |
なけの御筆つかひ | 〇 | 〇 | *戀し | 〇 | 〇 |