著者等は,1993年末に『源氏物語大成』1)校異篇をテキストとして,品詞情報つきデータベースを完成させた。このデータベースは,文章を統計的手法を用いて計量分析するために作成したものである。完成したデータベースを用いて,昨年末,『源氏物語語彙用例総索引』2)を作成した。データベースと,『語彙用例総索引』作成には可能な限りコンピュータを用いた。いずれの作成過程でも諸々の次元の問題が生起した。この小論では,その経験をふまえ,コンピュータを用いた語彙用例総索引作成の課題と方向性について検討する。
ふり返れば,昭和40年代より,日本の古典文学作品の殆どについて本格的な索引の整備が始まった。その方法は,およそ次の様なものである。ある底本を選び,一語一語のカードをつくる。カードに,語の本文中の表記,見出し語,品詞,活用の種類と活用形,語の所在するページ・行その他の情報を記載する。すべての語のカードが整備されるまでに数年あるいは数十年の年月が費やされた。カードの整備が済むと,できるだけ引きやすい索引となるよう五十音順に並べ,各語毎に出現順にページ・行を配列した。こうした配列法が一般的であるが,異なった配列法を試みた索引もある。
昭和48年には,語分割と品詞認定を手作業で行ない,その後の配列をコンピュータで行なった『平家物語総索引』3)も作られた。しかし,殆どの索引は最初から最後まで手作業であったため,多大な人力と根気が要求された。しかも,多大な人力をかけても,誤記入や記入漏れなどの,単純な誤りはどうしても防ぎきれなかった。更に,総索引にとって肝要な条件である誤認定にも,しばしば揺れが起こった。
そこで『語彙用例総索引』では,コンピュータを用いることによって,こうした点をできるだけ防ぎ,諸作業を効率良く行なう方法を工夫した。近年,パソコンは大幅に機能が向上したので,従来大型計算機で行なってきたような大量のデータの高速処理が可能になり,『語彙用例総索引』作成途上でも,上位機種の導入や,メモリの増設等に伴って,作業効率は上がった。『語彙用例総索引』は,従来の索引作りとはまったく違った方法で,作成したものである。
まず,作品の本文をそのままOCR(光学読みとり装置)で読み込んで電子化する。著者等は,富士電機のXP−50Sを使用したが,『大成』本文の識字率は90%でスピードは980字を約一分で読みとった。誤認識した文字の修正,点検を行なってもキーボード入力より数十倍速い。このデータを,ソフト開発して自動的に語分割,品詞つけを行ない,所在ページ・行の情報等を付加してゆき,カード作成を省略した。プログラミング言語は主にCシェル,AWK,C言語などUNIX系を使用し4),BASICも使用した。語分割を自動的に行なうことによって,語認定の揺れが防げた5)。
次に,語の配列方法をコンピュータで種々試した。ソートと呼ばれるこの作業は,どのOSを積んだコンピュータであっても基本的な作業コマンドとして常備されている。データの形が半角スペースや,決められた記号で区切られていれば,どの列ででもソートできる。即ち,データに必要な情報さえ付加しておけば,語の表記による単純な五十音順(図1)や,品詞別ソート(図2)なども容易であった。
また,活用する語の終止形をデータに書き込んでおけば,語の表記の形ではなく,終止形の五十音順に並べることもできる(図3)。更に,品詞別抜き出しや,特定の接続関係の語のみの抜き出し,等の抽出作業も非常に速く,語数のカウントや,逆引き表作成も容易であった。
大成頁行 表記 品詞 見出しカナ 0390-11 あいなし 形容 アイナシ 0389-05 あくまて 副詞 アクマデ 0390-02 あさから 形容 アサカラ 0388-14 あたり 名詞 アタリ 0390-12 あたり 名詞 アタリ 0387-12 あつま 名詞 アヅマ 0389-05 あてに 形動 アテニ 0388-09 あな 感動 アナ 0387-09 あはれ 名詞 アハレ 0390-02 あはれ 名詞 アハレ 0389-02 あはれなり 形動 アハレナリ 0387-04 あはれなる 形動 アハレナル 0388-11 あはれに 形動 アハレニ 0390-01 あはれに 形動 アハレニ 0388-14 あまた 副詞 アマタ |
大成頁行 表記 品詞 見出しカナ 0388-09 あな 感動 アナ 0389-05 あてに 形動 アテニ 0389-02 あはれなり 形動 アハレナリ 0387-04 あはれなる 形動 アハレナル 0388-11 あはれに 形動 アハレニ 0390-01 あはれに 形動 アハレニ 0388-12 いかなる 形動 イカナル 0389-09 いかに 形動 イカニ 0389-09 えんなり 形動 エンナリ 0387-14 おほきなる 形動 オホキナル 0387-13 かとちかなる 形動 カドチカナル 0388-12 かやう 形動 カヤウ 0388-13 かやうに 形動 カヤウニ 0390-08 かりに 形動 カリニ 0388-13 くるしけなり 形動 クルシゲナリ 0390-05 ことなり 形動 コトナリ |
大成頁行 表記 品詞 見出しカナ 0390-08 あら 動詞 アラ アリ 0390-09 あら 動詞 アラ アリ 0389-05 あり 動詞 アリ アリ 0388-11 あれ 動詞 アレ アリ 0390-04 あれ 動詞 アレ アリ 0388-10 いつる 動詞 イヅル イヅ 0388-04 いれ 動詞 イレ イル 0388-10 うへ 動詞 ウヱ ウウ 0389-09 うちすんし 動詞 ウチズンジ ウチズンズ 0389-07 うちなき 動詞 ウチナキ ウチナク 0389-08 うちなく 動詞 ウチナク ウチナク 0390-06 うちふるまひ 動詞 ウチフルマヒ ウチフルマフ 0387-10 うちやつし 動詞 ウチヤツシ ウチヤツス 0388-03 をしかへさ 動詞 オシカヘサ オシカヘス 0387-11 おはしすくる 動詞 オハシスグル オハシスグ 0387-04 おはせ 動詞 オハセ オハス 0389-01 おはする 動詞 オハスル オハス 0387-14 おほしいて 動詞 オボシイデ オボシイヅ 0388-12 おほしいつ 動詞 オボシイヅ オボシイヅ |
3.1 文献の総索引の利用目的
総索引の利用目的はおよそ以下の如くである。
3.2 総索引に求められる条件
3.1で述べた利用目的をみたすために,総索引に求められる必要条件は以下の如くである。
3.3 検討と課題
3.2の@の条件では,索引を利用する側が,索引とは異なった基準で語を想定していた場合,見出し語からは検索できない場合が生ずる。もし索引が細かく語を区切っていれば,前後の文脈がついているので,複合語の形も類推できる。しかし,利用者が「あき」「の」「かぜ」という文脈中の「かぜ」を検索しようとして「かぜ」という見出し語の項目を探しても,索引が「あきのかぜ」を一語としていれば,「かぜ」の項目に,所在ページ・行が掲載されていない。一語にする基準を長くとると,3.2の@の条件,即ち本文中のすべての語が検索しうる,という条件がみたされない。長い基準で区切った語の後半部分が検索できないからである。
では,できるだけ細かく語を区切ればよいかというと,必ずしもそうばかりとは言えない。源氏物語の場合も,いくつかの語を複合することによって,複合前の語とは異った意味の語を作っている訳だから,その複合語自身でも検索されなければならない。即ち,作者は,語を複合させることによって,より複雑微妙な表現の深化を目指しているから,作品の特徴的表現が複合語に表れている場合が多い。それ故,複合語の形で一語とし,検索されなければならない。
このような場合,『源氏物語語彙用例総索引』自立語篇第5巻末に掲載されているような,逆引き表が添付してあれば,「あき(の)かぜ」「うみ(の)おもて」のような複合語でも,「かぜ」あるいは「おもて」でも検索できる。従来の総索引には,殆ど逆引き表は添付されていないので,やはり逆引き表を添付することは必要である。
しかし,逆引き表が添付されている語彙用例総索引でも検索できないのが,「あき(の)よ(の)つき」のような,自立語を三つ以上連結して複合語を構成している場合で,二番目の自立語で始まる「よ(の)つき」のような語を,本文中からすべて検索したいとき,複合自立語が長ければ長いほど,中間部の語を検索することはできない。こうした検索は,後述するように,コンピュータで行なうほうが容易である。
3.2のAの条件について検討する。一つの作品中で,語の認定は,最初から最後まで統一した基準でなされなければならないことは言うまでもないが,人力による作業では,単純な基準でも途中で基準が揺らいでしまうことがある。更に,一語とする基準をどう決めるかも問題である。多くの作品に出現する,汎用性の高い一般的な語彙は,一語として見出し語としやすいが,複合語の場合,どの部分で一語とするかが重要なこととなり,その場その場での判定に迷いが生じ,語認定が恣意的になりやすい。実際,同一人物が作業しても,揺れが生じている。
源氏物語を例にとっても,『源氏物語大成』索引篇と,他の索引と語の認定が異なる場合がある。たとえば『大成』索引篇の見出し語より複合語をいくつか挙げると次のようになる。
これらの語は,『大成』索引篇では一語としているが,源氏物語の他の索引では必ずしも一語としていない。このような語の場合,同一人物でも語認定に不統一が生じやすい。
次に,品詞認定については,たとえば「かたがた」という語は,『大成』索引篇では「名副」として,名詞でも副詞でもない別の品詞を立てている。しかし,名詞,副詞どちらともいえる[名副]という品詞つけは,他の索引で同様になっているとはいえない。ただ,品詞認定については,総索引を利用する際,作品内で基準が統一されていれば,認定の仕方が,利用者側と異なっていても,それほど不便さは感じない。
それがその索引の認定基準である,と利用者側が納得して利用すればよいからである。しかし,複合語をどの基準で認定するかは,目的の語が検索できない場合も出てくるので,慎重になされなければならない。
次に,3.2のハ,について例を挙げる。『大成』索引篇で,接辞関係の語構成が,全巻でどのようになっているかを調べることは,難しい。即ち,接頭語「御」や「おはん」のつく語をすべて検索したいとか,活用する語の語幹について理由を表す接尾語「…み」のついている語とか,をすべて検索したい,という要求には到底答えられない。接辞つきの語は,その語の接辞のつかない形の見出し語のもとに,載せられているため,見出し語が五十音順に配列されていると,検索引中では接辞つき語が,点在しているからである。見出し語が五十音順に配列されていると,このような語構成の調査ができない。語構成の調査等を行なうときは,その作品の,表記の区別も含めた総異なり語を,五十音順でない,様々の配列の仕方で並べた附表等が必要となってくる。
更に,見出し語が濁点つきひらがなで立てられ,意味を表す漢字が注記されていても,本文中の表記は一切わからない。同一語で,異表記が何種類あって,それが何個位づつあるか等の調査は,すべて本文を確かめなければならないから,かなりの手間がかかる。これらの問題点も『語彙用例総索引』では解決できる。即ち,本文表記通りに,語がそのまま配列されているからである。
3.4 逆引き表つき語彙用例総索引の利点
3.2で,総索引の必要条件について述べた。こうした点をできうる限り達成しようとしたのが,逆引き表つき語彙用例総索引であるといえる。現在までの語彙用例総索引のいくつかの例を挙げる(図4,図5)。『源氏物語語彙用例総索引』以外には,逆引き表が添付されていないので,若干の不満が残る。
語彙用例総索引では,見出し語のもとに,該当語の所在ページ・行が記載されているだけでなく,該当語の前後に文脈をつけ,ある程度の長さで切り取った本文がそのまま載っているので,一語一語ページを操る手間が省ける。更に語の認定の違いが,かなりの程度解決できる。たとえば,形容動詞などは,認定の違いがあっても,殆ど検索できる。
『語彙用例総索引』で複合型の形容動詞を例にとると,「おもひのほかなり」の語は,索引によっては一語とせず「おもひのほか」+「なり」とわけているが,「おもひのほかなり」と一語になっていても充分検索しうるし,二語にわかれていても「おもひのほか」を検索すれば,後接語が一覧できるので問題はない(図6)。
更に逆引き表があれば,複合語の最後の語でも検索しうる。逆引き表つき『語彙用例総索引』は印刷物として最大限努力したものである。
薄 0606-05 しはし に て も よそよそに 思のほか の ましらひ し 侍ら む 2-219 2-421 上 1034-03 し も あら て をのつから おもひのほか の 事 も 3-221 4-023 横 1273-06 いてものし 給 へき 契 に て さる おもひの外 の こと も ある に 4-060 4-339 早 1691-06 おほしさため たり ける に かく おもひのほか の 人 を このほと 5-026 5-355 宿 1705-13 いなひはて し と おほし つる を 思ひのほか の 事 いてき ぬ へか 5-038 5-369 賢 0345-11 はなやき 給へ と 御心の中 は ▽思ひのほかなり し こととも を 1-379 2-094 宿 1739-02 ぬる を せめて おもひしつめ て 思ひのほかなり ける 御心 の 程 5-074 5-416 帚 0040-07 あはれ たら む むくらのかと に ▽おもひのほかに らうたけなら ん 1-061 1-136 帚 0040-11 たら む かたかと に て も いかか 思ひのほかに をかしから さら 1-061 1-137 夕 0104-09 あてはかに ゆへつき たれ は いと おもひのほかに おかしう おほえ 1-127 1-214 夕 0107-09 すまひ なれ と その なか に も 思のほかに くちおしから ぬ を 1-130 1-218 夕 0112-13 しものしな なら め その なか に おもひのほかに おかしき 事 も 1-135 1-225 夕 0121-13 て 女 も かかる ありさま を 思ひのほかに あやしき 心地 は 1-145 1-237 紫 0183-06 の うち に いり 給へ は あやしう おもひのほかに も と あきれ て 1-217 1-319 |
『語彙用例総索引』は自立語篇と付属語篇にわかれるが,現在自立語篇が既に完成しているので,ここでは,主に自立語篇の特長について述べる。
4.1 自立語篇の特長
前述のような検討の後『源氏物語大成』をテキストとして,『源氏物語語彙用例総索引』自立語篇を作成した。そもそも『大成』校異篇は,校訂本文ではない写本を活字化したものであるから,テキストとしても価値が高いが,更に,本文の不備を補って『語彙用例総索引』を作成したので,表記の研究等に十分活用できる。
特長について述べると,以下の様になる。
少 0693-09 と おもふ に いと つらく いてや うかり ける よ かな との の 2-305 3-051 螢 0805-04 おほしみたる めれ かの けむ か うかり し さま に は なすらふ 2-419 3-187 御 1394-14 し あけくれ の 夢 そ なこり さへ うかり ける やむことなき 4-187 4-498 宿 1744-10 の 程 や は へ ぬる 思ひのほかに うかり ける 御心 かな と すへて 5-080 5-424 桐 0016-01 たてまつら ん も いと 人きき ▽うかる へし 又 み たてまつら て 1-039 1-109 夕 0109-01 な ん 事 も いと いふかひなく うかる へき こと に 思 て 1-131 1-220 総 1657-14 人 も みえ む か 心やすから す うかる へき こと もし いのち 4-459 5-313 浮 1924-01 ききあはせ 給は ん 事 いと うかる へし すへて いかに なり 5-272 6-186 〜 空 0093-11 にくみ 給 へか めれ は 身 も ▽うく おもひはて ぬ なとか よそ 1-119 1-202 紫 0174-01 む と ふかう おほし たる に いと うく て いみしき 御けしき なる 1-205 1-305 葵 0293-03 し せ に いとと よろつ いと うく おほしいれ たり 大殿 に は 1-328 2-025 葵 0323-14 のみ もてなし 給 て 世中 の いと うく おほゆる ほと すくし て 1-361 2-068 蓬 0519-12 の さはき いてき て なへて の よ うく をほしみたれ し まきれ に 2-138 2-316 蓬 0527-02 契 を し たまひ し に わか 身 は うく て かく わすられ たる に 2-145 2-326 少 0700-12 らるる 事 まされ は さと さへ うく おほえ 給 つつ また 2-313 3-061 柏 1228-11 給は ぬ も ことはりなれ と いと うく も 侍 かな なと きこゆる に 4-012 4-281 霧 1326-03 と おもふ もの も の給は て いと うく くちおし と おほす に 4-114 4-406 霧 1328-05 やう は あら し かし と すくせ うく おほしくし て ゆふつかた そ 4-116 4-409 竹 1497-01 中將 は 猶 思そめ し 心 たえ す うく も つらく も 思ひ つつ 4-289 5-100 帚 0045-03 る 人 きとふらひ ひたすらに ▽うし とも おもひはなれ ぬ 男 1-066 1-142 帚 0049-10 も やめ む と おもひ て まことに うし なと も おもひ て たえ ぬ 1-071 1-148 帚 0070-07 給へ る を ふかく なさけなく うし と 思ひいり たる さま も 1-096 1-177 帚 0071-03 まし と おほす なくさめかたく うし と 思へ れ は なと かく 1-097 1-178 帚 0078-02 も のたまは す いたく うめき て うし と おほし たり ははき木 の 1-105 1-187 空 0085-02 ぬ を こよひ なむ はしめて うく と よ を おもひしり ぬれ は 1-109 1-191 夕 0085-02 ことつて も し 給は ね は うく と おほしはて に ける を 1-169 1-263 賀 0261-03 人 こそ いとおしけれ まことは うく や 世中 よ と いひあはせ て 1-297 1-417 |
松 0580-10 はへる を この 春 の ころ より ▽内の大殿 の つくら せ 給ふ 2-192 2-389 少 0690-10 て 我 御かた に いりゐ 給へ り 内の大との の きんたち 左少將 2-301 3-046 初 0775-04 ほと なり 殿 の 中將のきみ 内の大いとの の きみたち 2-390 3-153 胡 0784-10 その うち に ことの心 を しら て うちのおほいとの の 中將 なと 2-398 3-162 胡 0788-04 て おもひ も よら す 内のおほいとの の 君たち は 2-402 3-167 胡 0791-12 ととめ て まかり に ける に こそ 内のおほいとの の 中將 の この 2-405 3-171 常 0838-08 むつかしき 御かたらい なり ける うちの大殿 は この いま の 3-022 3-228 篝 0855-01 このころ 世の人 の ことくさ に 内のおほいとの の いまひめ君 3-039 3-247 行 0895-06 と 御くちかため きこえ たまふ うちのおほゐとの かく 三条の宮 3-078 3-295 真 0958-03 うたひ ける 程 を みれ は うちの大殿 の きんたち は 3-143 3-374 真 0968-10 こと なり かし まことや かの うちのおほいとの の 御むすめ 3-155 3-389 梅 0980-05 おかしき ふえ の ねとも きこゆ うちのおほいとの の 頭中將 3-165 3-402 梅 0985-06 宰相の中將 式部卿の宮 の 兵衛督 うちのおほいとの の とうの中將 3-171 3-409 |
(名) あはれ ( 101) (感) あはれ ( 30) (形動) あはれ ( 148) 哀 ( 2) 秋のあはれ ( 4) なけのあはれ ( 2) もののあはれ ( 6) 物のあはれ ( 7) ものあはれ ( 1) 物あはれ ( 1) |
4.2 コンピュータを用いた利点
前述したように,『源氏物語語彙用例総索引』は,『源氏物語大成』校異篇をテキストに,索引篇の見出し項目通りの語で,語認定し,分割し,品詞認定したデータベースをもとに作成したものである。語の分割も品詞つけもプログラムで自動的に行なったので,語認定,品詞認定は,54帖通じて統一されている。コンピュータを使用するといっても,カード型でデータベースを作成する場合は,一語一語本文より語を打ち込んでいくので,ソートするには便利だが,語認定や品詞認定の統一は不可能で,手作業による誤りと同レベルである。語認定,品詞認定を自動化した結果,
『大成』索引篇の語認定,品詞認定,その他の不統一や,索引漏れの語等が発見され,4.1のIで述べたように『語彙用例総索引』の巻末に,附表として載せることができた。語認定や品詞認定の不統一や索引漏れの多くは,コンピュータによるデータの一覧が敏速に行なえることにより,発見されたものが多い。
また,表記が本文通りであるため,同一語で表記が異なる語の調査ができ,写本の系統の違いなどの研究に役立つと思われる。たとえば,出現頻度の多い「心」や「人」という語に着目してみると,巻によって漢字表記とひらがな表記の,かたよりが見受けられる。他の語についても,こうした表記の調査は容易である。また,逆引き表を作ることもコンピュータで簡単に行なえ,これを用いることによって,「ども」等,接尾辞のついた語の調査が容易となる。更に,出現度数を調べたり,4.1のFGHの表を作成したりすることも容易である。
4.3 付属語篇への展開
『源氏物語語彙用例総索引』付属語篇は,既に出版されている自立語篇に近い構成で,作成中であるが,配列法は自立語篇とは異なっている。まず,付属語篇を自立語篇とわけて独立させた理由は,源氏物語の付属語がおよそ16万余語あること,自立語として認定した語の中にも,語構成上掲載すべき付属語を含んでいる語が多くあり,それらも参照項目として掲載すると18万語以上にもなるため,自立語(21万余語)とわけないと索引があまりにも膨大になることによる。加えて,出現自立語の総数21万余語に対し,2万余種の異なり語がある自立語とは異なり,付属語の種類が,述べ付属語数に対して少ないため,付属語一種類ずつに対する出現総数が多いことがその大きな理由である。
源氏物語のような付属語の出現総数が多い作品では,付属語一種類の語に対し,単純に出現順に掲載したのでは,一種毎の付属語の出現度数も多いので,付属語に対する多様な研究目的には対応しきれない。それ故付属語は,自立語と同列に掲載せず,各付属語の特性がもっと明確になる配列を試みなければならない。
まず,参考となる『大成』索引篇の助詞助動詞の部をみると,以下のような配列になっている。
き |
ぬ |
語彙用例総索引を中心に,いろいろ述べてきたが,総索引を作成する際に,OCRや自動的に語分割や品詞認定するソフトを利用して,作業時間の短縮と索引の正確さとをはかるべきである。しかしながら,索引作成までの諸作業をコンピュータで行ない,配列作業などの高速化や,語認定の統一等,コンピュータの機能を最大限生かしたとしても,印刷物として一つの方法で固定する限り,問題点は多少なりとも残る。
印刷物にすることは,コンピュータの本来の機能を限定して,固定した条件でのみ掲載するということである。この制約のために,利用者の様々の要求に,すべて答える事は困難である。印刷物で利用目的の大半をみたし,補完する意味で,電子化された索引をコンピュータで活用すれば,語の認定は統一した基準で行なわれ認定基準をいくらでも変えて検索することができる。印刷物は,ある利用法,使用目的の上に固定してしまうので,コンピュータの機能を最大限活用しているとはいえない。電子化されたデータがあれば,利用者の目的に合った総索引がコンピュータ上でいくらでも作成できる。複合語の認定に悩むことなく,幾種類もの区切り方で認定し,検索することができる。また,品詞認定等も一つの基準を決めると,すべて同じ基準で全巻統一できる。語の配列法は,該当語だけについても,前接語,後接語についてもいくらでも条件通りに並べ換えることができる。即ち,表記順でも,終止形順でもその他の並べ方でもよい。3.1の@〜Hのすべての要求をみたすことができる。任意の語のみの抽出や,語数のカウントも容易である,総索引作りにコンピュータを利用することは非常に有効な手段であり,電子化された『語彙用例総索引』があり,種々の用途にあった検索ソフト,集計ソフト等々を作れば,諸々の利用目的が達成される。
ところで,現時点では日本の古文献をコンピュータで扱う際には,標準的なコンピュータに備えられているJIS漢字の量が少なすぎるため,旧漢字や異体字の問題をどうするかの問題が残っている。しかし,漢字コードは,16ビットコンピュータの制限のもとにJIS第一・第二水準が作られており,今後開発されるコンピュータは,32ビット,64ビットへと性能が向上していくので,すべての漢字は,早晩コード化されるであろう。従って,近い将来,日本の古文献に関しても,より本文表記に忠実な索引の作成が可能となるであろう。
今後の,総索引の作成は,利用目的の大半をみたすものとして,まず印刷物とし,それを補完するものとして,電子媒体でデータを提供することが理想的である。現在では,一枚のCD−ROMで大量のデータを記録することができるので,従来の一底本だけによる総索引を越え,何種類もの底本のデータベースをも含めた,ある作品の総合索引とも言えるものを目指すのが理想である。従って,