村上征勝:統計数理研究所、上田裕一:琉球大学、上田英代、樺島忠夫:神戸学院大学
次に「源氏物語」の1〜8巻までを手作業で単語分割し、異なり単語を集めて単語集をつくり、分割用辞書とした。その後『フロッピー版古典対照語い表』が入手できたので、その中の「源氏物語」使用語彙を分割用辞書に加えた。活用する語には、すべてに活用語尾を付加し、手作業分割による1〜8巻までの単語集と、『古典対照語い表』を合成した辞書を作成した。単語の自動分割を更に正確なものとするため、『大系』本を参考に本文テキストに読点をつけた。この本文テキストを、合成した辞書で自動分割した結果が(図2)である。自動単語分割プログラムは、UNIXのCシェルプログラムを使って作成した。<=と−>で区切られた部分が辞書の単語とマッチし、分割された単語である。このプログラムは、長い単語から先に区切ってゆき、一度<=と−>で区切られた後はその中は区切らないという仕組みになっている。
<=いつれ-><=の-><=御時-><=に-><=か->。<=女御-><=更衣-><=あまた-><=さふらひ-><=給-><=ける-><=なかに-><=いとやむことなき-><=き-><=はに-><=は-><=あら-><=ぬか-><=すくれ-><=て-><=時めき-><=給-><=ありけ-><=り->。<=はしめ-><=より-><=我-><=は-><=と-><=思あかり-><=給へる-><=御方¥めさましき-><=もの-><=に-><=おとしめ-><=そねみ-><=給->。<=おなし-><=ほと-><=それ-><=より-><=下らう-><=の-><=更衣-><=たちは-><=まして-><=やすからす->。<=あさゆふ-><=の-><=宮つかへ-><=に-><=つけて-><=も-><=人-><=の-><=心を-><=のみ-><=うこかし-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=ありけ-><=む-><=いと-><=あつしく-><=なり-><=ゆき-><=もの心ほそけに-><=さとかち-><=なる-><=を-><=いよ¥¥-><=あか |
この自動分割プログラムでは、一文字或いは二文字の単語分割は不正確なので、自動分割の後、手で修正した。修正後の正確に分割された巻で異なり単語集をつくり、元の分割用辞書にない単語を追加していった。固有名詞や漢字混じりの初出単語などが増加してゆくわけである。一巻ごとに新たな単語が元辞書に追加されることは、自動分割の正確さを増してゆくことになった。最終的に合成辞書による自動分割で、54帖目の「夢の浮橋」は、80%の正確さであった。
/いつれ[ ]/の[助詞][名詞]/御時[ ]/に[助詞][助動][動詞][名詞]/か[助詞][代名][名詞]/。/女御[ ]/更衣[ ]/あまた[名詞]/さふらひ[助動][動詞][名詞]/給[ ]/ける[助動]/なか[動詞][名詞]/に[助詞][助動][動詞][名詞]/いと[副詞][名詞]/やむことなき[形容]/きは[名詞]/に[助詞][助動][動詞][名詞]/は[助詞][助動][名詞]/あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/て[助詞][助動][名詞]/時めき[ ]/給[ ]/あり[動詞][名詞]/けり[助動]/。/はしめ[動詞][名詞]/より[助詞][動詞]/我[ ]/は[助詞][助動][名詞]/と[助詞][助動][副詞][名詞]/思あかり[ ]/給へ[ ]/る[助動]/御方¥[ ]/めさましき[形容]/もの[名詞]/に[助詞][助動][動詞][名詞]/おとしめ[動詞]/そねみ[動詞][名詞]/給[ ]/。/おなし[形容]/ほと[名詞]/それ[代名][動詞][名詞]/より[助詞][動詞]/下らう[ ]/の[助詞][名詞]/更衣[ ]/たち[動詞][名詞]/は[助詞][助動][名詞]/まして[副詞]/や |
元辞書中に該当単語が収録されていないときは、その単語には品詞が付かず、[ ]内が空欄となる。[ ]の単語を集めて、ファイルにし、この[ ]に品詞を入れる。それまでの辞書に、その巻の[ ]に品詞を付けたもの、即ち新異なり語集を加える。新異なり語集を加えた辞書で、その巻をもう一度品詞付けする。その結果できたファイルで多品詞の単語の品詞を選択する。(図4)
いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]/更衣[名詞]/あまた[副詞]/さふらひ[動詞]/給[補助]/ける[助動]/なか[名詞]/に[助詞]/いと[副詞]/やむことなき[形容]/きは[名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/時めき[動詞]/給[助動]/あり[動詞]/けり[助動]/。/はしめ[名詞]/より[助詞]/我[代名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[助動]/る[助動]/御方¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給[補動]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]/下らう[名詞]/の[助詞]/更衣たち[名詞]/は[助詞]/まして[副詞]/やすから[形容]/す[助動]/。/あさゆふ[名副]/の[助詞]/宮つかへ[名詞]/に[助詞]/つけ[動詞]/て[助詞]/も[助詞]/人[名詞]/の[助詞]/心[名詞]/を[助詞]/のみ[助詞]/うこかし[動詞]/うらみ[名詞]/を[助詞]/おふ[動詞]/つもり[名詞]/に[助詞]/や[助詞]/あり[動詞]/けむ[助動]/いと[副詞]/あつしく |
ある巻が、すべて正確に品詞付けされてから、自動単語分割の時と同様に、その巻のすべての品詞つき異なり語の単語集をつくり、元の辞書に加える。重複同一単語は除き、同音異義語は、多品詞語とする。それまでの辞書に該当単語がない時、前巻と同様の作業をする。修正の後、再びその巻の異なり語集を作り新異なり語を元辞書に加え、次の巻の自動品詞付けを行なう。その作業を54帖分続ける。
0005-01 いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御更衣[名詞]/あまた[副詞]/さふらひ[動詞]/給[動敬]/ける[助動]/なか[名詞]/に[助詞]/いと[副詞]/やむことなき[形容]/きは 0005-02 [名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/時めき[動詞]/給[動敬]/あり[動詞]/けり[助動]/。/はしめ[名詞]/より[助詞]/我[代名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[動敬]/る[助動]/御方 0005-03 ¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給[動敬]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]/下らう[名詞]/の[助詞]/更衣たち 0005-04 [名詞]/は[助詞]/まして[副詞]/やすからす[連語]/。/あさゆふ[名副]/の[助詞]/宮つかへ[名詞]/に[助詞]/つけ[連語]/て[助詞]/も[助詞]/ |
イ)54帖すべての異なり単語の各巻毎の個数と割合
この例として「あはれ」という語をとりあげてみる。「あはれ」には、(名詞)(感動詞)「あはれなり」(形容動詞)とあるが、その他に「あはれかる」(動詞)「あはれけなり」(形容動詞)「あはれさ」(名詞)「あはれしりかほなり」(形容動詞)「あはれひおはします」(動詞)「あはれふ」(動詞)を加えて、本文に出現する型は23通りであり、出現する型ごとのデ−タは、勿論作成されているが、更に一歩進んで、すべての型を加えて一語として各巻別の頻度をグラフ化すると(図6)になる。
「横笛」の巻は、柏木の死を悼む内容であるし、「須磨」の巻は、主人公光源氏が、悲しい思いで都を離れる内容である。この結果からみると、「あはれ」という語は、巻の内容に密接に関係し、第一部第二部と宇治十帖との表現の違いという形にはなっていないと思われる。
ロ)各巻の各品詞毎の個数と割合
ハ)各巻のある品詞の中の単語別割合
番号 度数 かな漢字 (%) 0 10 20 1 141 - を 8.930 --**** 2 16 - か 1.013 -- 3 1 - かし 0.063 -- 4 5 - かな 0.317 -- 5 12 - こそ 0.760 -- 6 4 - さへ 0.253 -- 7 11 - し 0.697 -- 8 19 - そ 1.203 -- 9 12 - たに 0.760 -- 10 12 - つゝ 0.760 -- 11 170 - て 10.766 --**** 12 146 - と 9.246 --**** 13 10 - とも 0.633 -- 14 7 - なから 0.443 -- 15 39 - なと 2.470 --* 16 11 - なむ 0.697 -- 17 21 - なん 1.330 --* 18 247 - に 15.643 --****** 19 32 - にて 2.027 --* 20 261 - の 16.529 --******* 21 15 - のみ 0.950 -- 22 167 - は 10.576 --**** 23 2 - はかり 0.127 -- 24 2 - はや 0.127 -- 25 14 - まて 0.887 -- 26 162 - も 10.260 --**** 27 15 - や 0.950 -- 28 20 - より 1.267 --* 29 2 - 哉 0.127 -- |
ニ)ある品詞が文頭、文末にある割合
名 詞が文頭にある割合 = 59.155% 動 詞が文頭にある割合 = 10.798% 形容動詞が文頭にある割合 = 0.939% 助 詞が文頭にある割合 = 0.000% 接 頭 語が文頭にある割合 = 0.000% 接 尾 語が文頭にある割合 = 0.000% 形 容 詞が文頭にある割合 = 10.329% 感 動 詞が文頭にある割合 = 0.000% 助 動 詞が文頭にある割合 = 0.000% 連 体 詞が文頭にある割合 = 9.390% 副 詞が文頭にある割合 = 8.451% 接 続 詞が文頭にある割合 = 0.939% 連 語が文頭にある割合 = 0.000% 名詞副詞が文頭にある割合 = 0.000% 敬語動詞が文頭にある割合 = 0.000% 補助動詞が文頭にある割合 = 0.000% 代名副詞が文頭にある割合 = 0.000% 枕 詞が文頭にある割合 = 0.000% 複合動詞が文頭にある割合 = 0.000% 複合形容が文頭にある割合 = 0.000% |
普通名詞が文末にある割合 = 0.000% 固有名詞が文末にある割合 = 0.000% 形式名詞が文末にある割合 = 0.000% 代 名 詞が文末にある割合 = 0.000% 数 詞が文末にある割合 = 0.000% 動 詞が文末にある割合 = 12.676% 形容動詞が文末にある割合 = 1.408% 助 詞が文末にある割合 = 9.390% 接 頭 語が文末にある割合 = 0.000% 接 尾 語が文未にある割合 = 0.000% 形 容 詞が文未にある割合 = 6.103% 感 動 詞が文未にある割合 = 0.000% 助 動 詞が文未にある割合 = 49.765% 連 体 詞が文未にある割合 = 0.000% 副 詞が文未にある割合 = 0.000% 接 続 詞が文末にある割合 = 0.000% 連 語が文末にある割合 = 0.000% 名詞副詞が文末にある割合 = 0.000% 敬語動詞が文末にある割合 = 20.657% 補助動詞が文末にある割合 = 0.000% 代名副詞が文末にある割合 = 0.000% 枕 詞が文末にある割合 = 0.000% 複合動詞が文末にある割合 = 0.000% 複合形容が文末にある割合 = 0.000% |
ホ)54帖品詞出現率の主成分分析
ヘ)54帖品詞の接続関係の主成分分析
(図10)(図11)の結果をみると宇治十帖とその他の巻がそれぞれ緩やかにまとまっていることがわかる。しかしこれだけでは簡単に、宇治十帖が他作家によって書かれたのか、紫式部の文体が変化していったのかわからない。他作家の作品や、紫式部日記の分析を待って結論したい。