日本アーカイブズ学会研究会

10/4(土),学習院大学で開かれた日本アーカイブズ学会の2008年度第1回研究会「デジタル情報技術が拓くアーカイブズの可能性」に参加してきました.

プログラム

  • アジア歴史資料センターから見たデジタル・アーカイブズの現在と展望(国立公文書館アジア歴史資料センター調査員,平野宗明(代表),相原佳之,石田徹,蔵原大,黒木信頼,中村元,牧野元紀)
  • 「デジタルアーカイブ」と記録資料 - "正倉院文書データベース"と近代史料のデジタル化を通して - (花園大学文学部文化遺産学科専任講師,後藤真)
上記2件の発表の後,以下の方々と会場を交えたパネルセッションがありました.
本当に気持ちよく晴れている週末の昼下がり,人文系の人たち(特に歴史系の人が多かったのかな)が考えるデジタルアーカイブの議論は非常に白熱して心地よいものでした.

※レポはryojin3の所感であり,講演者の意見・意図が100%反映されているとは限りません!その点ご注意くださいませ.なお,登場する人たちは全て敬称を略させていただいております.



1件目の発表はアジア歴史資料センターデータベース構築作業の話が中心でした.アジ歴(と略すらしい.Webサイトを見てみたら,ヘッダに括弧付きでアジ歴って書いてあった)のDBのデータ構成,アクセス機能,問題点等のお話を聞くことができました.

アジ歴DBのデータ構成

ちなみに,アジ歴の場合,国立公文書館外交史料館防衛省防衛研究所図書館,の各機関がそれぞれマイクロフィルムをデジタル化し,アジ歴がDBにまとめている.マイクロフィルムは文字記載面をモノクロ撮影.細かい解像度やサイズ等の話は聞けず.

画像データ
  • DjVuフォーマット.なんで感たっぷり.
目録データ
  • データ作成フロー
  1. 各機関がメタデータを提供
  2. 外部業者がデータ作成
  3. アジ歴スタッフが内容チェック,DB登録.
メタデータ
  • データフォーマットはEAD.
  • 出力時にはDCの12項目を利用.
メタデータ構成
  • レファレンスコード:資料識別番号.館識別子を頭に付けた12桁.
  • 資料整理コード:資料の配置・配列を表す.館名や件名等を4x10の数値データで表す.
  • 簿冊キー:各館の文書整理番号.館間で違わないのかは不明.
  • オリジナル資料の所在:CDのボリューム名とかって説明があったが,それでわかるのかな...
  • 複製の存在:各館のマイクロフィルムのリール番号.
  • 内容情報:件名表題,作成者名称,作成年月日,記述単位の年代域,言語,規模,組織歴/履歴,範囲と内容/要約

アジ歴DBのアクセス機能

体系化
  • 資料構造を再現するために,リンクで階層構造を実現している.
  • 資料配列を再現するために,資料整理コードを用いている.
シソーラス?
  • アジア歴史資料辞書
  • 検索キーと実データの表記揺れや関連を意味的に結びつける辞書.
検索
  • 50音,階層,キーワード(詳細も),レファレンスコードで検索できる.

アジ歴DBの問題点

スタンス
  • あるものは全部出す.つまり,センターの性格上,公開データの選り好みをせずに,存在する資料は全部公開する方向.
検索精度
  • これは難しい.再現率と適合率の話.
シソーラスの精度
  • 意味的な結び付け方について,検討中.これも相当難しそう.
データの正確さ
  • そもそも原本が間違っている場合がある.誤記の取扱いも検討中.
不足しているもの
  • 人と予算.
  • ユーザ活用の方向も検討中.
情報の保存
  • 基本的にデジタル情報の保存は期限付きと捉えている.
  • エミュレーションやマイグレーションは課題.
  • ここでもやっぱり,人と予算...
まとめ
  • デジタルアーカイブは今後大きな位置を占めるに違いない.
  • 様々な機関DBの統合的利用ができるとうれしい.


2件目の発表は,いくつかのデジタルアーカイブ構築を具体的に行った経験を基に,実際の現状と問題点を整理してみた,という話でした.人文系の方々のこだわりポイントがよくわかり,個人的には非常に興味深く聞くことができました.

正倉院文書データベース SOMODA
  • 正倉院が管理する文書の閲覧システム.
  • 2004~2006年度の科研費/研究成果公開促進費(データベース)
  • 文書の形態は巻物.裏に書かれている戸籍や計帳(税金基礎台帳)も重要.
  • 裏に書かれていたものの都合上,バラバラに管理されていた.
  • 断簡という単位で保存されているので,その単位のままデジタル化.
  • トータル50600画像,20800ページ,35300件.
  • 各種検索機能あり
  • テキストと画像を相互に参照できる仕組み.
  • 画像の勝手利用を防ぐため,40x40ピクセルに分割して表示.

上田貞治郎写真コレクション(大阪市立大学)
  • 上田貞治郎が集めた古写真アルバムのDB化
  • 単位の粒度は「コレクション→アルバム→ページ→写真」と階層化.
  • アルバム単位とは複数の写真が含まれた状態.
  • カラー
2つの取り組みを通して
  • 基本的に史料の構造はそのままで表現する.
  • 史料のデータ構造はバラバラの場合もあるので,その場合は構造化する.
  • デジタルは保存に向かない.
  • ソフト:真正性の確保が困難,デジタルデータは可変性に富みすぎている,等
  • ハード:サーバ維持等のコストがかかる,今まで方式と比べて負荷がかかる,等
デジタルアーカイブのマイナス面
  • これまでのものは優品主義・美術優位・視覚優位の姿勢.
  • 「アーカイブズ」ではない.
デジタルアーカイブのプラス面
  • 文化遺産の振興に貢献.
  • 間接的保存に有効.
  • アーカイブの理解には役立つ.
まとめ
  • デジタル化で保存問題は解決しない.
  • 活用によって保存が進む.


パネルセッション
以下,コメンテータと発表者のコメントを交えて議論が交わされました.

岡本氏のコメント
岡本氏のブログに詳細が載っています.ryojin3はメモ抜粋のみです.

考慮すべきはデータの保存,再構成,提供.

保存
  • 100年単位の保存は難しい.
再構成
  • データは減衰する.
  • データの正確性(=信頼性)と真正性(=信憑性)として考えてみたらどうか.
  • 原本の間違いとデジタルであることによる可変等.
提供
  • デジタルにすることでもたらされることを考えるべき.
  • 情報の活用が進む.
近藤氏のコメント
  • データの戦略的活用ができているか.
  • 保存は原本へのアクセスを低減する.
  • ボーンデジタルの問題.
後藤氏のコメント
  • 岡本氏の「データは減衰する」に賛成.
  • 間違いの多い資料は校正(改訂履歴)も含めてデジタル化すべき.
平野氏のコメント
  • とにかくあるものをデジタル化して提供することが使命と捉えている.
会場から
 Q 使い方はユーザが決めるもので,評価は難しいと思うがどうか.
 A そうはいっても戦略は必要.
 A 提供側は,資料を整理して提示することで評価されやすくなる.
 A 使い方に様々な選択肢があるのはいい.
 A 資料リコメンドのような仕組みはありかも.

 Q 教育利用を考える場合,豊富なメタデータは重要.情報の価値や幅をどう捉えているか.
 A 幅が出るよう,様々な利用形態を考えてみたい.

 Q アーキビストにとって情報技術は何をもたらすのか.
 A 様々な情報技術を用いて,豊富なメタデータを付けやすくなるのではないか.
 A 中の人だけじゃなくて,外の人にも使えるようにするためのツール.
 A 組織間のコミュニケーションツール.

ryojin3の考察

最後の会場とのやりとりがすごく面白かったのですが,聞き入ってしまい,かなりメモを取り損ねました.メモ術は難しいのう.

さて,以下,ryojin3の考察です.

まず,どの発表・コメントにおいてもデジタル保存は難しいという認識が共有されていることが面白い.現状,保存に関してはソフトウェア的な手当てとしてエミュレーションとマイグレーションが主流です.前者はデータ再生環境をソフトウェアで実現する手段,後者はデータや再生ソフトウェアをまるごと新しい環境に移植する手段です.また,ハードウェア的な手当てとして長期間利用可能な持続性を持つストレージの研究開発がなされています.更に,保存用メタデータスキーマやISOの標準等も様々な角度から検討されている状況にあると認識しています.

しかし,これらは現場のアーカイブ作業をする人々からすれば,まだまだ枯れた技術には程遠い,実験的な研究領域を出ていないということなのでしょう.

デジタルを用いないアーカイブの実験として,先日ロゼッタ・プロジェクトのニュースを耳にしました.これは,チタン/ニッケル製の球状の物体に1500もの言語を超微細エッチング加工を施し,情報を後世に残すプロジェクトだそうです.

永久に,という意味ではこれでも不十分なのかもしれませんが(何を永久にするかという定義にもよります),紙やマイクロフィルムよりも長く持つことは明らかです.しかし,このようなやり方は当然膨大な各種資料(紙だけではありません.絵画や博物館の収蔵品,計測も難しい大型遺跡や動く!無形文化財までも)には適用できない部分が多くあります.

その点,あらゆる形式のモノを一元的にデジタル化し,ソフト・ハード両面から,またスキーマのようなデータ構造から長期保存を支えるというアプローチは個人的にありだと考えています.

もちろん,登壇した方々も同じ認識だと思います.ただ,それだけじゃダメだということ.現状ではデジタルと物理的なモノの両方から,複合的に長期保存を行うスキームを構築することが重要なのでしょう.

次に,データの活用についてです.活用は本当に様々なやり方があります.現状だと,Webを使ってインターネット公開をする手法が主流だと言えます.むしろ,それと同義でデジタルアーカイブが語られている場合すらある.

このような現状で,岡本氏の発言は非常に的を得ていたと思います.つまり,データの活用は提供側がコントロールしなくても良い,ということです.近年のインターネット関連企業はまずサービスをリリースし,すぐそのAPIを公開します.これは,サービスの使い方を提供側で規定するのではなく,データ込みで利用者側に工夫してもらおうとする試みです.

自分達が企画した範囲内での利用と,世界中のアイデアを用いた利用とではどちらが有益な使われ方をするか,どちらが多く使われるか,一目瞭然だと思われます.その意味で,ryojin3は岡本氏の考えに賛同できると言えます.

今回の研究会は人文歴史系の方々が多く参加されていたようなので,だいぶアウェイ感がありましたが,非常に面白い研究会でした.