琉球大学 上田 裕一 上田 英代 神戸学院大学 樺島 忠夫 統計数理研究所 村上 征勝 法政大学 仲川 隆弘<計量分析の目的>
<昨年までの成果>
昨年3月までに、本研究会で発表したデ−タベ−ス作成までの概略は、以下の項目についてである。プログラミングは、UNIXのC−SHELLプログラミング、Cランゲ−ジで作成した。
<1>『源氏物語大成』の自動単語分割 <2>自動単語分割への作業経過 1)デ−タ入力(OCRによるデ−タ入力) 2)手作業による句点分割 3)分割用辞書づくり イ)手作業による分割 ロ)フロッピ−版『古典対照語い表』(笠間書院)より源氏使用単語の 取り出し ハ)イ)ロ)によって得られた単語を合成し、動詞の終止形に活用語尾を つけて分割用辞書をつくる。 4)自動単語分割 イ)テキストに読点をつける。 ロ)合成辞書でイ)のテキストを分割する。昨年は、自動的に単語分割する際に、辞書の中に終止形で入っている動詞の活用語尾をを加えるところまでで終わっているが、その後すべての活用する品詞(形容詞、形容動詞、助動詞)の活用語尾を辞書の中に入れ、できあがった辞書で分割した。この時、ある単語の終止形に活用語尾を加えるプログラムはBASICで作り、それぞれの品詞ごとに自動的に書き加えた。
/いつれ/の/御時にか/。/女御/更衣/あまた/さふらひ給/ける/な/ かに/いと/やむことなきゝは/には/あら/ぬか/すくれて/時 ぬき給/ありけり。/はしめより/我はと/思あかり/給へる/御方¥ /めさましき/ものに/おとしめ/そねみ給/。/おなし/ほと/それ/ より/下らうの/更衣/たちは/まして/やすからす/。/あさゆふの /宮つかへに/つけても/人の心/をのみ/うこかし/うらみを/おふ/ つもりにや/ありけむ/いと/あつしく/なりゆき/もの心ほそけに /さとかち/なるを/いよ¥¥/あかす/あはれなる物に/おもほして/ 人の/そしりをも/え/はゝからせ/給はす/世の/ためしにも/なりぬ/へ き/御もてなし也/。/かんたちめ/うへ人/なとも/あいなく/めを/ そはめ/つゝ/いと/まはゆき/人の御/おほえなり/。/もろこしにも /かゝる/ことの/おこり/にこそ/世も/みたれ/あしかり/けれ と/やう¥¥/あめのしたにも/あちきなう/人の/もてなやみくさに/ なりて/楊貴妃の/ためしも/ひきいてつ/へく/なりゆくに/いと /はしたなき/こと/おほかれと/かたしけなき/御心はへの/たく ひなきを/たのみ/にて/ましらひ給。/ちゝの/大納言は/なくなり |
/いつれ/の/御時/に/か/。/女御/更衣/あまた/さふらひ/給/ける/なか /に/いと/やむことなき/きは/に/は/あら/ぬ/か/すくれ/て/時めき /給/あり/けり。/はしめ/より/我/は/と/思あかり/給へ/る/御方¥ /めさましき/もの/に/おとしめ/そねみ/給/。/おなし/ほと/それ /より/下らう/の/更衣たち/は/まして/やすからす/。/あさゆふ /の/宮つかへ/に/つけ/て/も/人/の/心/を/のみ/うこかし/うらみ/を /おふ/つもり/に/や/あり/けむ/いと/あつしく/なりゆき/もの心ほそけに /さとかちなる/を/いよ¥¥/あか/す/あはれなる/物/に/おもほし/て /人/の/そしり/を/も/え/はゝから/せ/給は/す/世のためし/に/も /なり/ぬ/へき/御もてなし/也/。/かんたちめ/うへ人/なと/も/あいなく /め/を/そはめ/つゝ/いと/まはゆき/人/の/御おほえ/なり/。/もろこし /に/も/かゝる/こと/の/おこり/に/こそ/世/も/みたれ/あしかり/けれ /と/やう¥¥/あめのした/に/も/あちきなう/人/の/もてなやみくさ /に/なり/て/楊貴妃/の/ためし/も/ひきいて/つ/へく/なりゆく /に/いと/はしたなき/こと/おほかれ/と/かたしけなき/御心はへ/の /たくひなき/を/たのみ/に/て/ましらひ/給。/ちゝ/の/大納言/は |
<自動品詞付け> 1)自動分割されたテキストの修正 2)品詞付け用辞書づくり @フロッピ−版『古典対照語い表』の利用 フロッピ−版『古典対照語い表』より源氏に使用されている語のみ抜き出し て、品詞つき辞書をつくる。
あ,案,カ,,,,,,,,1,,,,,,,, あ,彼,,,,,,,,,3,,,,,,,, ああ,鳴呼,,感,,,,,,,1,1,,,,,,,,, あいきやう,愛敬,カ,,,1,,1,,1,14,6,,,,,,, あいきやうつく,愛敬付,コ,動四,,,,1,,1,42,7,,,,,,, あいしふ,愛執,カ,,,,,,,,1,,,,,,, あいたちなし,,,形,,,,,,,3,,,,,,, あいたる,,コ,動下ニ,,,,,,,,2,,,,,,,, あいなし,愛撫,,形,,5,,,1,4,101,9,8,,,,,, あいなたのみ,,,,,,,,1,,3,,,,,,,, あいなたのめ,,,,,,,,,,1,,,,,,,, あう,奥,カ,,,,,,,2,10,2,1,,,,,, あえか,,,形動,,,,,,3,17,,,,,,,, あえもの,肖物,,,,,,,,,5,,,,,,,, あか,閼伽,カ,,,,,,,,9,,,,,,,, あか,吾,,連体,,1,,,,,16,2,4,,,,,1,82 あかいろ,赤色,,,,,,2,,6,5,6,1,,,,,, あかき,赤木,,,,,,,,,1,,,,,,,, あかきぬすかた,赤衣姿,,,,,,,,,,1,,,,,,,, あかくちは,赤朽葉,,,,,,,,,,1,,1,,,,,, |
あ,[代名] ああ,[感動] あいきやう,[名詞] あいきやうつく,[動詞] あいしふ,[名詞] あいたちなし,[形容] あいたる,[動詞] あいなし,[形容] あいなたのみ,[名詞] あいなたのめ,[名詞] あう,[名詞] あえか,[形動] あえもの,[名詞] あか,[名詞] あか,[連体] あかいろ,[名詞] あかき,[名詞] あかきぬすかた,[名詞] あかくちは,[名詞] |
A活用形のある語に活用をつける。 フロッピ−版『古典対照語い表』には活用語は終止形でのっているので、そ の語幹に活用語尾をつける。ただし、たとえば動詞四段活用の終止形と連体形 は同じであるなど、活用語尾が同じものは一種類だけ加える。自動分割の時に 用いたと同じように一巻ごとに、辞書にない異なり単語を書き加えてゆく。
あ,[代名] ああ,[名詞] あいきやう,[名詞] あいきやうつか,[動詞] あいきやうつき,[動詞] あいきやうつく,[動詞] あいきやうつけ,[動詞] あいきやうなから,[形容] あいきやうなけなら,[形動] あいきやうなけなり,[形動] あいきやうなけなる,[形動] あいきやうなけなれ,[形動] あいきやうなけに,[形動] |
B同音異義語には複数の品詞をつける。
あか,[動詞] あか,[名詞] あか,[連体] あかき,[形容] あかき,[名詞] あかし,[形容] あかし,[動詞] あかし,[名詞] あかり,[動詞] あかり,[名詞] あかれ,[動詞] あかれ,[名詞] あき,[動詞] あき,[名詞] |
あか,[動詞][名詞][連体] あかき,[形容][名詞] あかし,[形容][動詞][名詞] あかり,[動詞][名詞] あかれ,[動詞][名詞] あき,[動詞][名詞] あけくれ,[動詞][名詞] あさき,[形容][名詞] あさけ,[形容][名詞] あさけれ,[形容][動詞] あさり,[動詞][名詞] あし,[形容][名詞] あしこ,[代名][名詞] あしこもと,[代名][名詞] |
3)自動品詞づけ作業経過 @正確に分割されたテキストを用いて適切な品詞をつける。
<図8> 自動品詞付け結果@(桐壷)
/いつれ[ ]/の[助詞][名詞]/御時[ ]/に[助詞][助動][動詞][名詞]
/か[助詞][代名][名詞]/。
/女御[ ]/更衣[ ]/あまた[副詞]/さふらひ[助動][動詞][名詞]
/給[助動]/ける[助動]
/なか[動詞][名詞]/に[助詞][助動][動詞][名詞]/いと[副詞][名詞]
/やむことなき[形容]/きは[名詞]/に[助詞][助動][動詞][名詞]
/は[助詞][助動][名詞]
/あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/て[助詞]
[助動][名詞]/時めき[ ]
/給[ ]/あり[動詞][名詞]/けり[助動]/。/はしめ[動詞][名詞]/
より[助詞][動詞]
/我[ ]/は[助詞][助動][名詞]/と[助詞][助動][副詞][名詞]/
A修正 辞書の中に該当単語がない時、[ ]内が空欄となる。 [ ]の単語を集めて、ファイルにする。 例 err1
<図9>辞書に該当単語が無いもの(桐壷)
いつれ,[ ]
御時,[ ]
女御,[ ]
更衣,[ ]
給,[ ]
時めき,[ ]
給,[ ]
我,[ ]
思あかり,[ ]
給へ,[ ]
御方¥,[ ]
給,[ ]
下らう,[ ]
この[ ]に品詞を入れる。 それまでの辞書に、その巻の新異なり語集を加える。 新異なり語集を加えた辞書で、その巻をもう一度品詞付けする。次にそれを 印刷して紙上修正する。
<図10> <図9>の単語に品詞付けしたもの(桐壷)
いつれ,[代名]
もの心ほそけに,[形動]
思あかり,[動詞]
御方¥,[名詞]
御時,[名詞]
御もてなし,[名詞]
更衣,[名詞]
更衣たち,[名詞]
下らう,[名詞]
心,[名詞]
給,[助動]
給は,[助動]
給へ,[助動]
多品詞の語を文脈の中に入れて品詞を決定する。
<図11> 自動品詞付け結果A(桐壷)
/いつれ[代名]/の[助詞][名詞]/御時[名詞]/に[助詞][助動][動詞][名詞]
/か[助詞][代名][名詞]/。
/女御[名詞]/更衣[名詞]/あまた[副詞]/さふらひ[助動][動詞][名詞]
/給[助動]/ける[助動]
/なか[動詞][名詞]/に[助詞][助動][動詞][名詞]/いと[副詞][名詞]
/やむことなき[形容]/きは[名詞]/に[助詞][助動][動詞][名詞]
/は[助詞][助動][名詞]
/あら[動詞]/ぬ[助動][動詞]/か[助詞][代名][名詞]/すくれ[動詞]/て[助詞]
[助動][名詞]/時めき[動詞]
/給[助動]/あり[動詞][名詞]/けり[助動]/。/はしめ[動詞][名詞]/
より[助詞][動詞]
/我[代名]/は[助詞][助動][名詞]/と[助詞][助動][副詞][名詞]/
思あかり[動詞]
Bある巻がすべて正確に品詞付けされてから、その巻のすべての異なり語の単 語集をつくり、元の辞書に加える。 重複同一単語は除き、同音異義語は、多品詞語とする。 C追加された辞書を使って巻2に品詞付けをする。 それまでの辞書に該当単語がない時、前巻と同様の作業をする。 その作業を54帖分続ける。 4)辞書の工夫 辞書の単語が増加すると同時にある語の品詞も増加してゆくので、約5巻ごとに辞書の点検をする。 たとえば、以下のように簡略化する。ただし、多品詞語は、プリントする時に大文字化する。 <図12> 品詞修正済みテキスト(桐壷)
いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]
/更衣[名詞]/
あまた[副詞]/さふらひ[動詞]/給[助動]/ける[助動]/なか[名詞]/に[助詞]
/いと[副詞
]/やむことなき[形容]/きは[名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]
/か[助詞
]/すくれ[動詞]/て[助詞]/時めき[動詞]/給[助動]/あり[動詞]/けり[助動]/。
/はしめ
[名詞]/より[助詞]/我[代名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[助動]
/る[
助動]/御方¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]
/そねみ
[動詞]/給[助動]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]
/下らう[名詞]
<ペ−ジと行付け> コンピュ−タで、大成本のOCR修正済み句点付きテキストを参照して、品詞付きテキストに 大成本のペ−ジと行を付ける。
いと,[副詞][名詞] → いと,[副詞]
とし,[形容][名詞] → とし,[名詞]
に,[助詞][助動][名詞][動詞] → に,[助詞][助動]
0005-01
いつれ[代名]/の[助詞]/御時[名詞]/に[助詞]/か[助詞]/。/女御[名詞]/更衣[名詞]/
あまた[副詞]/さふらひ[動詞]/給[助動]/ける[助動]/なか[名詞]/に[助詞]/いと[副詞]
/やむことなき[形容]/きは
0005-02
[名詞]/に[助詞]/は[助詞]/あら[動詞]/ぬ[助動]/か[助詞]/すくれ[動詞]/て[助詞]/
時めき[動詞]/給[動敬]/あり[動詞]/けり[助動]/。/はしめ[名詞]/より[助詞]/我[代
名]/は[助詞]/と[助詞]/思あかり[動詞]/給へ[動敬]/る[助動]/御方
0005-03
¥[名詞]/めさましき[形容]/もの[名詞]/に[助詞]/おとしめ[動詞]/そねみ[動詞]/給
[動敬]/。/おなし[形容]/ほと[名詞]/それ[代名]/より[助詞]/下らう[名詞]/の[助詞]
/更衣たち[名詞]
0005-04
/は[助詞]/まして[副詞]/やすからす[連語]/。/あさゆふ[名副]/の[助詞]/宮つかへ
[名詞]/に[助詞]/つけ[動詞]/て[助詞]/も[助詞]/人[名詞]/の[助詞]/心[名詞]/を[助
詞]/のみ[助詞]/うこかし[動詞]/うら
0005-05
み[名詞]/を[助詞]/おふ[動詞]/つもり[名詞]/に[助動]/や[助詞]/あり[動詞]/けむ
[助詞]/いと[副詞]/あつしく[形容]/なりゆき[動詞]/もの心ほそけに[形動]/さとかち
な
0005-06
る[形動]/を[助詞]/いよ¥¥[副詞]/あか[動詞]/す[助詞]/あはれなる[形動]/物[名詞]
/に[助詞]/おもほし[動詞]/て[助詞]/人[名詞]/の[助詞]/そしり[名詞]/を[助詞]/も
[助詞]/え[副詞]/はゝから[動詞]/せ[助動]/給
<図13> ページ、行付きテキスト(桐壷) 以上の作業の後、デ−タ作成プログラムにかけて、以下の項目について、結果が得られた。
イ、単語の長さのヒストグラム
ロ、各卷の文の長さと文の数
ハ、単語の前後関係
ニ、ある品詞が文頭、文末にある割合
ホ、単語別の度数とヒストグラム
ヘ、各品詞別、度数付き単語集
ト、各品詞の度数と出現率
チ、品詞の相対出現率
リ、単語の出現回数
ヌ、各品詞ごとの接続関係