The quantitative analysis of sentences, the study of patterns formed in
the process of linguistic encoding of information, has been applied to
manyimportant documents in foreign countries. However, it was first
applied to Japanese documents only in the middle decades of the 20th
century. The mainreason for this delay is the following characteristic of
the Japanese language.
Japanese words are not separated by spaces as in English. Thus it is
difficult for the computer to recognize word boundaries.
The purpose of this study is to build a useful full-text database of
Genji Monogatari for use in quantitative analysis. Using the Genji
Monogatari Taisei published by Chuokoron-sha as a textbook, we divided
all the sentences of Genji Monogatari into words to which were attached
codes for parts of speech.
In this paper we report how to build such a database and what
difficulties we encountered in this process.
<=いつれ-><=の-><=御時-><=に-><=か->。<=女御-><=更衣-><=あまた-><=さふらひ-><=給-><=ける-><=なかに-><=いとやむことなき-><=き-><=はに-><=は-><=あら-><=ぬか-><=すくれ-><=て-><=時めき-><=給-><=ありけ-><=り->。<=はしめ-><=より-><=我-><=は-><=と-><=思あかり-><=給へる-><=御方¥¥めさましき-><=もの-><=に-><=おとしめ-><=そねみ-><=給->。<=おなし-><=ほと-><=それ-><=より-><=下らう-><=の-><=更衣-><=たちは-><=まして-><=やすからす->。<=あさゆふ-><=の-><=宮つかへ-><=に-><=つけて-><=も-><=人-><=の-><=心を-><=のみ-><=うこかし-><=うらみ-><=を-><=おふ-><=つもり-><=に-><=や-><=ありけ-><=む-><=いと-><=あつしく-><=なり-><=ゆき-><=もの心ほそけに-><=さとかち-><=なる-><=を-><=いよ¥¥-><=あかす-><=あはれなる-><=物-><=に-><=おもほし-><=て-><=人-><=の-><=そしり-><=を-><=も-><=え-><=は->ゝ<=から-><=せ-><=給はす-><=世-><=の-><=ためし-><=に-><=も-><=なり-><=ぬ-><=へき-><=御もてなし-><=也->。 |
<= ―>で区切られた部分が辞書の単語とマッチし分割された単語である。このプログラムは、長い単語から先に区切ってゆき、一度<= ―>で区切られた後は、その中は区切らないという仕組みになっている。桐壷の巻を自動分割するのにUNIXマシンのNEWSで1時間27分かかった。この自動分割プログラムでは、一文字或いは二文字の単語分割は不正確なので、自動分割の後、手で修正した。手修正で正確に分割された巻で異なり単語集をつくり、元の分割用辞書にない単語を追加していった。固有名詞や初出単語などが増加してゆくわけである。一巻ごとの辞書用単語の元辞書への追加は、自動分割の正確さを増してゆくことになった。最終的に合成辞書による自動分割で、「夢の浮橋」の巻は、80%の正確さであった。今後、単語の前後関係から判断して分割箇所を認定するプログラムの開発がのぞまれる。
/いつれ[ ]/の[助詞][名詞]/御時[ ]/に[助詞][助動][動詞][名詞]/ か[助詞][代名][名詞]/。/女御[ ]/更衣[ ]/あまた[副詞]/ さふらひ[助動][動詞][名詞]/給[助動]/ける[助動]/なか[動詞][名詞]/ に[助詞][助動][動詞][名詞]/いと[副詞][名詞]/やむことなき[形容]/ きは[名詞]/に[助詞][助動][動詞][名詞]/は[助詞][助動][名詞]/ あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/ て[助詞][助動][名詞]/時めき[ ]/給[ ]/あり[動詞][名詞]/けり[助動]/。 |
いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]/更衣[名詞]/ あまた[名詞]/さふらひ[動詞]/給[助動]/ける[助動]/なか[名詞]/に[助詞]/ いと[副詞]/やむことなき[形容]/きは[名詞]/に[助詞]/は[助詞]/あら[動詞]/ ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/時めき[動詞]/給[助動]/あり[動詞]/ けり[助動]/。/はしめ[名詞]/より[助詞]/我[代名]/は[助詞]/と[助詞]/ 思あかり[動詞]/給へ[助動]/る[助動]/御方¥[名詞]/めさましき[形容]/ もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給[助動]/。 |
0005-01 いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]/更衣[名詞]/ あまた[副詞]/さふらひ[動詞]/給[動敬]/ける[助動]/なか[名詞]/に[助詞]/いと[副詞] /やむことなき[形容]/きは 0005-02 [名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/ 時めき[動詞]/給[動敬]/あり[動詞]/けり[助動]/。/はしめ[名詞]/より[助詞]/我[代 名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[動敬]/る[助動]/御方 0005-03 ¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給 [動敬]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]/下らう[名詞]/の[助詞] /更衣たち[名詞] |
イ、単語の長さのヒストグラム へ、各品詞別、度数付き単語集
ロ、各巻の文の長さと文の数 ト、各品詞の度数と出現率
ハ、単語の前後関係 チ、品詞の相対出現率
ニ、ある品詞が文頭、文末にある割合 リ、単語の出現回数
ホ、単語別の度数とヒストグラム ヌ、各品詞ごとの接続関係
同様に、「紫式部日記」や各種の文献のデータベースを作成し、データ解析と利用方法の開発を同時に行なってゆく予定である。