TEIは情報歴史学研究室: TEI Day in Kyoto 2006に書いた通り、「人文系で研究対象となるような文書ならどんなものでもマークアップできてしまうような、巨大なタグセットを開発している」わけだが、それが欧米圏で始まったものの、日本では受け入れられないのはなぜか。もちろん、いろいろ歴史的、政治的なむにゃむにゃがあったりするのは世の常だろうが、想像をたくましくすれば、そこにはもしかして「文献」「テキスト」というものの捉え方が、あちらとこちらで根本的に異なるからではないか?という問い方も可能であろう(そっちの方が、研究対象としては面白い)。土屋先生の発表はまさに、そのような問題意識を狙い撃ちしているものと期待されるのだ。
ということで実際の発表であるが、土屋先生のスライドを記憶とメモをたよりに、出来る限り再現してみよう(つっこみ歓迎)。ただし「#」とか「→」とかは、先生のコメント(だと記憶しているもの)。
反省
- 1988の会議へ京都大学の中村順一氏(故人)が参加
- P2、P3作成へ土屋氏参加(1994年P3公表)
- ここまでのキーパーソンは長尾真先生
→人文系じゃない、自然言語処理研究な人が日本では中心 - P3の国内配布
- Susan Hockey 来日
- Sperberg-McQueen氏、Lou Burnard氏 来日
→周知につとめたけどいまいち。1997年ごろまで。 - 特定領域研究「人文科学とコンピュータ」(1995-1999)に乗らず。
# ロビー活動はしたがとりあげられず。90年代後半を「棒に振った」。
論点(1)
- プレインテキスト至上主義
- 80年代になって日本語入力が容易になったため、さらにタグをつけるということについての抵抗がつよい?
# 日本のLaTeXの普及も遅い(1997〜)のも原因? - 文字コードに関する議論がやかましく構造化の話までいかなかった?
- ウェブの普及の遅れにより、タグの有益さの認識ができていなかった?
論点(2)
- いや、問題はもっと本質的だ。日本語の文書は「構造化」されていない!(人文系の意見?)
- 連綿と書き継ぐスタイルは構造化になじまない
# 信仰? - 日本語文書は「様式」のような構造化が一般的である様式は二次元の配置によるものであって階層構造の存在を想定する構造化文書に考え方はなじまない
- 現実にHTMLよりPDFが好まれる
- (いや、返り点、ふりがななど注記によってテキストを可読化する伝統はむしろ日本的である)。
# 脚注より高級な構造化じゃないか?
論点 (3)
# 計算機屋さん、技術者の発想。- 日本のカルチャーとして、ウェブというものは文書を提供するものではない。インタラクティブなコミュニケーションこそが本質。
- そういう文化の中で、文書構造の標準化は「後ろ向き」。
- XMLもデータベースの記述方式、画像などを扱うための方法に関心。
- メタデータに関する関心も低い。
将来は?
- 楽観論
- このままやっていけばいずれみんなタグをつけるようになる。
# ウィキペディアなんかも普及してるし、構造化文書のよさにきっと気づくよ。 - そのときに存在する標準を使えばよいじゃない。
- 悲観論
- 構造化文書嫌いは日本人にとって本質的。
- 標準化は構築のための作業が重要であり、後から勉強して使うのでは無理である。
No comments:
Post a Comment