<あらまし>
1990年より、池田亀鑑編著の『源氏物語大成』(1)の本文データベースを作成し、その単文分割、品詞分類等を行い、各巻毎の品詞別使用頻度や、語数、文長その他の文法情報を用いて、源氏物語を様々な角度から計量分析しようと試みている。源氏物語には既に総索引が完備されており、『フロッピー版古典対照語い表』(2)によって源氏物語全体の品詞別使用頻度や、同時代他作品との比較等はなされている。しかし、成立過程や複数作家説を検討するためには文体や、特定語の各巻や各節毎の比較検討は必要不可欠なので、そのためにも本文データベースの作成は、急がれた訳である。
データベース作成にあたっての問題点や、単語分割する際の考慮すべき点を提示し、順次解決を試みたい。
<キーワード>
源氏物語、本文データベース、UNIXシステム、単語の自動分割、平均文長
桐壷、夢の浮橋、初音、浮舟、 ・・・・・・ 池田本 花散里、柏木、早蕨 ・・・・・・ 青表紙本 その他の諸帖 ・・・・・・ 大島本
OCRによる読み取りの後、原文と対比しての修正は手作業で行った。
単語分割にはUNIXシステムを使用したが、その際に単文毎の分割が必要となり『日本古典文学体系』(3)を参照して手作業によって、句点をつけた。それ以外にはできるだけコンピュータを利用することを考えている。
|
<表1>は、各巻の平均文長を用いて、前半の44巻と後半の10巻の平均値に差があるかどうかを調べた結果である。自由度52のt分布の5%点の値は約1.675であるので有意水準5%のt検定では平均文長に差があるとはいえない。
1〜44巻の平均値 | 281.73 | 49.73 | 13883.73 | |
45〜54巻の平均値 | 500.60 | 52.05 | 24916.10 | |
平均値の検定 | t値 | -2.971 | -1.171 | -3.065 |
自由度 | 52 | 52 | 52 |
また<図5>は、各巻における文長の分布の類似性を数量化V類にかけて調べた結果である。「幻」、「匂宮」、「早蕨」の3巻は、他51巻と多少異なった分布となっている。しかし、成立過程論の諸問題を解くためには、文長のデータだけでは不十分であり、武田説の紫上系巻々と玉鬘系巻々、宇治十帖に関し分布に特徴は見られなかった。
<=いつれ-><=の-><=御時-><=に-><=か->。<=女御->更衣<=あまた-><=さふらひ-><=給-><=ける-><=なか-><=に-><=<=いと-><=やむことなき->-><=きは-><=には-><=あら-><=ぬ-><=か-><=すくれ-><=て-><=時めき-><=給-><=あり-><=けり->。<=はしめ-><=より-><=我-><=は-><=と-><=思あかり-><=給へ-><=る-><=御方¥¥めさましき-><=もの-><=に-><=おとしめ-><=そねみ-><=給->。<=おなし-><=ほと-><=それ-><=より-><=下らう-><=の-><=更衣-><=たちは-><=まして-><=やすから-><=す->。<=あさ-><=ゆふ-><=の-><=宮つかへ-><=に-><=つけて-><=も-><=人->の<=心-><=を-><=のみ-><=うこかし-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=あり-><=けむ-><=いと-><=あつしく-><=なり-><=ゆき-><=もの心ほそけに-><=さと-><=かち-><=なる-><=を-><=い-><=よ->¥¥<=あ-><=かす-><=あはれなる-><=物-><=に-><=おもほし-><=て-><=人-><=の-><=そしり-><=を-><=も-><=え-><=はゝから-><=せ-><=給は-><=す-><=世-><=の-><=ためし-><=に-><=も-><=なり-><=ぬ-><=へき-><=御もてなし-><=也->。<=かんたちめ-><=うへ人-><=なと-><=も-><=あいなくめ-><=を-><=そはめ-><=つ->ゝ<=いとまはゆき-><=人-><=の-><=御おほえ-><=なり->。<=もろこし-><=に-><=も-><=かゝる-><=こと-><=の-><=おこり-><=に-><=こそ-><=世-><=も-><=みたれ-><=あしかり-><=けれ-><=と-><=やう->¥¥<=あめのした-><=に-><=も-><=あちきなう-><=人-><=の-><=もてなやみくさ-><=に-><=なり-><=て-><=楊貴妃-><=の-><=ためし-><=も-><=ひき-><=いて-><=つ-><=へく-><=なり-><=ゆく-><=に-><=いと-> |
<=世の中-><=かはり-><=て-><=後-><=よろつ-><=ものうく-><=おほされ-><=御身-><=の-><=やむことな-><=さも-><=そふ-><=に-><=や-><=かる¥¥しき-><=御->じ<=の-><=ひ-><=ありき-><=も-><=つゝましう-><=て-><=こゝ-><=も-><=かしこ-><=も-><=おほつかなさ-><=の-><=なけき-><=を-><=かさね-><=給ふ-><=むくひ-><=に-><=や-><=なを-><=われ-><=に-><=つれなき-><=人->の<=御-><=心を-><=つきせす-><=のみ-><=おほし-><=なけく->。<=今-><=は-><=まして-><=ひまなう-><=たゝ人-><=の-><=やうに-><=て-><=そひ-><=おはします-><=を-><=いま-><=きさき-><=は-><=心やましう-><=おほす-><=に-><=や-><=うちに-><=のみ-><=さふらひ-><=給へ-><=はた-><=ち-><=ならふ-><=人-><=なう-><=心-><=や-><=すけ-><=なり->。 <=おりふし-><=に-><=したかひ-><=て-><=は-><=御あそひ-><=なと-><=を-><=このましう-><=世-><=の-><=ひ->ゝ<=く-><=はかり-><=せ-><=させ-><=給-><=つゝ-><=今->の<=御-><=ありさま-><=しも-><=めてたし->。 <=たゝ-><=春宮-><=を-><=そい-><=とこ-><=ひ-><=しう-><=思ひ-><=きこえ-><=給-><=御-><=う->。 <=しろみ-><=の-><=なき-><=を-><=うしろめたう-><=おもひ-><=きこえ-><=て->大將<=の-><=君-><=に-><=よろつ-><=きこえ-><=つけ-><=給ふ-><=も-><=かたはら-><=いたき-><=ものから-><=うれし-><=と-><=おほす->。 |
<UNIXシステムviエディターを使用>
vi gkoten.dat : %s/だ/た/g ↓ (“だ”を“た”になおす) : 1 ↓ (ファイルの先頭へ戻る) : w ↓ (上書きしてセーブする) : q! ↓ (終了)
次に、見出し語だけを集めた辞書を作る。
ハ)辞書による自動分割
c.でできた見出し語のみの辞書(平仮名・清音のみ)で自動分割を試みる。
gsplit_s g1.jxw sLtgdic.jxw
これは全文を、辞書に入っている語150語ずつでさがして切ってゆくものである。
この辞書は、平仮名のみでできているため漢字表記の語は、分割できなかった。<図8>
<=いつれ-><=の->御時<=に-><=か->。女御更衣<=あまた-><=さふらひ->給<=け->る<=なか-><=に-><=いと-><=やむ-><=こと-><=な-><=き-><=きは-><=には-><=あ-><=ら-><=ぬ-><=か-><=すく->れ<=て->時<=め-><=き->給<=ありけ->り。<=はしめ-><=よ->り我<=は-><=と->思<=あかり->給<=へ->る御方¥¥<=めさまし-><=き-><=もの-><=に->お<=とし-><=め-><=そねみ->給。<=おなし-><=ほと-><=それ-><=よ->り下<=らう-><=の->更衣<=たち-><=は-><=まして-><=やす-><=からす->。<=あさゆふ-><=の->宮<=つか-><=へに-><=つけ-><=て-><=も->人<=の->心<=をの-><=みう-><=こか-><=し-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=ありけ->む<=<=い-><=と->-><=あつし-><=く-><=なり-><=ゆき-><=もの->心<=ほ-><=そ-><=けに-><=さとかち-><=なる-><=を-><=<=い-><=よ->->¥¥<=あかす-><=あはれ-><=なる->物<=に-><=お<=も->-><=ほし-><=て->人<=の-><=そしり-><=を-><=も-><=え-><=は->ゞ<=から-><=せ->給<=はす->世<=の-><=ためし-><=に-><=も-><=なり-><=ぬ-><=へ-><=き->御<=もてなし->也。<=かんたちめ-><=<=う-><=へ->->人<=なと-><=も->あ<=い-><=なく-><=め-><=を-><=そはめ-><=つ->ゝ<=いとま-><=は-><=ゆき->人<=の->御<=おほえ-><=なり->。<=もろこし-><=に-><=も-><=か->ゝる<=ことの-><=おこり-><=に->り<=に-><=こそ->世<=も-><=みたれ-><=あ-><=しか->り<=け->れ<=と-><=やう->¥¥<=<=あ-><=め->-><=の-><=し-><=たに-><=も->あちきなう人<=の-><=もてなやみくさ-><=に-> |
<=いつれ-><=の-><=御時-><=に-><=か->。<=女御-><=更衣-><=あまた-><=さふらひ-><=給-><=ける-><=なかに-><=いとやむことなき-><=き-><=はに-><=は-><=あら-><=ぬか-><=すくれ-><=て-><=時めき-><=給-><=ありけ-><=り->。<=はしめ-><=より-><=我-><=は-><=と-><=思あかり-><=給へる-><=御方¥¥めさましき-><=もの-><=に-><=おとしめ-><=そねみ-><=給->。<=おなし-><=ほと-><=それ-><=より-><=下らう-><=の-><=更衣-><=たちは-><=まして-><=やすからす->。<=あさゆふ-><=の-><=宮つかへ-><=に-><=つけて-><=も-><=人-><=の-><=心を-><=のみ-><=うこかし-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=ありけ-><=む-><=いと-><=あつしく-><=なり-><=ゆき-><=もの心ほそけに-><=さとかち-><=なる-><=を-><=いよ¥¥-><=あかす-><=あはれなる-><=物-><=に-><=おもほし-><=て-><=人-><=の-><=そしり-><=を-><=も-><=え-><=は->ゞ<=から-><=せ-><=給はす-><=世-><=の-><=ためし-><=に-><=も-><=なり-><=ぬ-><=へき-><=御もてなし-><=也->。<=かんたちめ-><=うへ人-><=なと-><=も-><=あいなくめ-><=を-><=そはめ-><=つゝ-><=いとまはゆき-><=人-><=の-><=御おほえ-><=なり->。<=もろこし-><=に-><=も-><=かゝる-><=ことの-><=おこり-><=にり-><=にこそ-><=世-><=も-><=みたれ-><=あしかり-><=けれ-><=と-><=やう¥¥-><=あめのした-><=に-><=も-><=あちきなう-><=人-><=の-><=もてなやみくさ-><=に-><=なり-><=て-><=楊貴妃-><=の-><=ためし-><=も-><=ひきいて-><=つ-><=へく-> |
ロ)辞書の中に、活用語は語尾をすべて含めて入れる。
<参考文献>
(1)池田亀鑑編著 源氏物語大成 (1984) 中央公論社
(2)宮島達夫・中野洋・鈴木泰・石井久雄編 フロッピー版古典対照語い表 (1939) 笠間書院
(3)山岸徳平校注 日本古典文学大系(1958)岩波書店