博物館情報学のススメ: 5月 2008

博物館の資料の状況

現在，日本にはどれくらい博物館資料があるのでしょうか．

文科省の統計データに社会教育調査というものがあり，その中に博物館資料に関する統計があったので整理してみました．

社会教育調査は，社会教育に関する基礎データを収集し，行政用の資料を作ることを目的に3年周期で行われている調査だそうです．この調査によると，博物館は以下のように分類され，分類ごとに統計が取られています．

なお，今回は2005年度の調査結果を用いて整理しています．

博物館の分類

種別

登録博物館，博物館相当施設，博物館類似施設

区分

総合博物館，科学博物館，歴史博物館，美術博物館，野外博物館，動物園，植物園，動植物園，水族館

博物館資料の分類

人文科学資料

実物

古美術資料，近代美術資料，考古学資料，民俗資料，民族・人類学資料，歴史資料，その他

標本

古美術資料，近代美術資料，考古学資料，民俗資料，民族・人類学資料，歴史資料，その他

模型(模写)

古美術資料，近代美術資料，考古学資料，民俗資料，民族・人類学資料，歴史資料，その他

図書

写真

その他

自然科学資料

実物

動物資料，植物資料，地学資料，理化学資料，天文資料，その他

標本

動物資料，植物資料，地学資料，理化学資料，天文資料，その他

模型(模写)

動物資料，植物資料，地学資料，理化学資料，天文資料，その他

図書

写真

その他

上記の分類を参考に，グラフにまとめなおしてみました．

1．博物館総数

博物館(登録博物館＋博物館相当施設＋博物館類似施設)の総計です．国内にはトータルで5,614館の博物館があるようです．

図1　博物館総数

内訳は，歴史博物館系(※)が圧倒的に多く，次いで美術，科学，総合となっています．

※　~系と記載しているのは，相当施設や類似施設も含んでいるためです．

2．博物館資料

2.1　博物館資料総数

次は，5,600を超える博物館(登録博物館＋博物館相当施設＋博物館類似施設)が抱える資料の総計です．国内にはトータルで158,858,775点の資料があるようです．こんなにあるとは！

図2　博物館資料総数(区分別)

区分別(図2)に見てみると，ほぼ博物館数の割合通りに資料が保持されていることが分かります．面白いのは，総合博物館と科学博物館において，館数と資料数で逆転現象が見られることです．それだけ総合博物館は規模が大きいということでしょうか．

図3　博物館資料総数(分野別)

図3は資料総数を分野毎に計数し直したものです．内訳は人文科学の実物資料が最も多く，約6800万点，総資料数の約44%を占めています．次いで自然科学の標本資料(約3300万点，21%)，人文科学の図書資料(約1800万点，11%)，人文科学の写真資料(約1200万点，8%)となっています．

2.2　人文科学資料

人文科学に絞って資料の内訳を見てみます．人文科学の資料はトータルで109,352,666点あるようです．

図4　人文科学資料総数(区分別)

図4は博物館(しつこいですが，登録＋相当＋類似)における人文科学資料の総数です．圧倒的に歴史・総合・美術博物館系が資料を持っていることが分かりますが，それ以外の科学・野外・動植物園等でも微量ながら人文科学の資料を持っているようです．

図5　人文科学資料総数(分野別)

図5は人文科学資料総数を分野別に計数し直したものです．内訳は実物の考古学資料が最も多く，約3900万点，総人文科学資料の約36%を占めています．次いで図書(約1800万点，17%)，実物の歴史資料(約1400万点，13%)，写真(約1300点，12%)と続きます．

2.3　自然科学資料

同様に，自然科学資料の内訳です．自然科学の資料はトータルで49,506,109点あるようです．

図6　自然科学資料総数(区分別)

図6は博物館(登録＋相当＋類似)における自然科学資料の総数です．総合，科学，植物で実に全体の92%を占めています．

図7　自然科学資料総数(分野別)

図7は自然科学資料総数を分野別に計数し直したものです．内訳は標本の動物資料が約1200万点で24%，標本の植物資料が約1100万点で22%，実物の植物資料が約768万点で16%，標本その他が約601万点で12%となっています．

3．まとめと今後の課題

今回は，文科省の社会教育調査(2005年度版)を元に，いったい国内には博物館資料がどれほどあるのか，またそれがどんな内訳なのかをざっくりと見てみました．

グラフ化して気づいたことをまとめます．

博物館法上の博物館(登録博物館)，それに準じる施設(博物館相当施設)は少ない．多くは博物館法適用外の博物館類似施設である．
人文科学の資料は自然科学と比べて多い．
人文科学の資料には実物が多い．標本や模型は少ないが，代わり？となる写真や図書が多い．
自然科学の資料には標本が多い．動植物は実物を管理しづらいせいか？また，標本や模型(模写)で代用できるためか，写真や図書は少ない．
自然科学の標本の多くは動植物園ではなく，総合・科学博物館で管理されている？

また，今後の課題として，以下を挙げておきます．

言葉の定義

統計では「資料」という言葉が使われています．そもそも資料って何でしょう．恐らく，美術工芸品や民俗学的に貴重な生活用品，鉱石や剥製のみならず，それに関連するドキュメントや写真，図書等をまとめて「資料」と呼んでいるのだと思います．もしかしたら，市販されている報告書には定義付けがなされているかもしれませんが，「収蔵品とそれ以外」について，定義の再確認をしてみたいです．

年別の資料数の推移

ネットでは平成11年(1999)，平成14年(2002)，平成17年(2005)，の3回の調査結果が載っています．ちょうど今年は調査の年に当たります．過去と併せて資料数の推移を確認してみたいです．

分類方法

統計では「その他」項目に含まれる資料も多数存在します．これらはどのように分類されたのか，また，そもそもどのようなモノがどのような項目に分類されたのか，(これも報告書に記載されているかもしれませんが)調べてみたいです．

種別

具体的にどの博物館がどの種別に分類されているのか，またその選別プロセスについて調べてみたいです．

ディジタルアーカイブの現状との比較

これほどボリュームがある博物館資料，近年ではディジタルアーカイブ化も進んでいると聞きます．博物館資料と比較したディジタルアーカイブの現状について調べてみたいです．

研究資源共有化システム

日経新聞(5/10)でも取り上げられたようなのでご存知の方も多いでしょうが，大学共同利用機関法人人間文化研究機構では，研究資源共有化事業が進められています．

その柱は，1)データベースの拡充，高次化と 2)研究資源を共有するための情報環境の創出です．

1)に関しては，各研究機関が持つデータベース(以下，DB)の質的・量的拡充とGISデータの作成等が行われています．また，2)に関しては，「研究資源共有化システム」と総称する情報システムの開発が行われています．

今回は，2008年4月から公開になった「研究資源共有化システム」について書いてみたいと思います．

なお，このあたりの事情は，2008年3月14日に行われた研究資源共有化シンポジウム「研究資源共有化 - その展開と可能性 - 」に講演予稿集がアップされていますので，そちらも併せてご参考下さい．

1. 研究資源共有化システムの概要

事業紹介ページによれば，このシステムは以下の3システムから成ります(2006年度から開発開始，2008年4月から運用開始)．

統合検索システム

DBシステム．各研究機関が公開しているDBの横断・統合検索を実現する．

nihuONEシステム

DBシステム．研究者自身による容易なDB作成，研究支援機能を持つ．2008年5月16日現在，非公開．近日公開予定らしい．

GT-Map/GT-Timeシステム

アプリケーション．時間情報や空間情報（地理情報）に基づいた分析を可能にする．2008年5月16日現在，非公開．近日公開予定らしい．

2，3はまだ一般公開されていません．また，ryojin3的に最もホットなトピックは統合検索システムだと考えているので，そこについてまとめます．

2. 統合検索システムの概要

統合検索システムは，人間文化機構を構成する5研究機関が提供する108のDBに対して，一括で横断検索，個々のDBが持つ時間・空間情報を用いた統合表示ができるシステムです．

以下は対象となる5研究機関です(トップページではなく，個々のDB紹介ページにリンクしています)．

また，各機関のサイトから統合検索システムへのリンクが貼られています．

統合検索システムのシステム構成は以下のようになっています．

図は以下から抜粋しました．

安永尚志: "研究資源共有化システムにおける統合検索システム", 人間文化研究機構研究資源共有化シンポジウム「研究資源共有化 - その展開と可能性」講演予稿集, pp.12-15, 2008.(PDF)

各機関の情報システムのフロントにFront End System(以下，FES)とGate Way System(以下，GWS)が配置され，FESで各DBのメタデータの違いが吸収され，FESとGWSの連携により，ユーザはWebから横断検索が可能となります．

FESは，各機関の各DBの項目を共通のメタデータ項目にマッピングし，マッピング情報をメタデータデータベース(以下，MDB)で保持するシステムです．図を見ると，サーバサイドのMDB検索システムやOAI-PMHのリポジトリ機能も備えているようです．

また，GWSとは，異なるプロトコルや媒体を使う他のネットワークシステムに接続するためのソフトウェア(いわゆるゲートウェイ)のことを指し，ここでは，Webブラウザからの検索要求をFESに渡すクライアントサイドのMDB検索システムになります．プロトコルには図書館管理システムでよく使われているZ39.50とSOAPを用いてXMLで要求を送るSRW(Search/Retrieve Web Service)が採用されています．

他にも，検索システムの運用管理に特化したシステム，共通ユーザインターフェースの採用等，面白い試みがなされていますが，ryojin3が一番気になるのは，やはり，どうやって108ものDBの項目を「共通のメタデータ項目」にマッピングしているのか，という部分になります．

3. 統合検索システムにおける共通メタデータ

山本泰則: "データベース横断検索のための共通メタデータ - 統合検索システムにおける定義と2つの課題 - ", 人間文化研究機構研究資源共有化シンポジウム「研究資源共有化 - その展開と可能性」講演予稿集, pp.16-21, 2008.(PDF)によれば，このシステムで採用している共通メタデータには，以下の3種類があります．

Dublin Core

基本15エレメントを用いている．精密化(qualifier)はしていない(方言が多いから??)

5W1H

いつ，どこで，誰が，何を，なぜ，どのように

時空間情報

時間情報：日付，年代，時代

空間情報：住所，地域，国，緯度経度

これらのメタデータに以下の規則を適用したようです．

NIHUメタデータマッピング規則
(以下は論文の抜粋で，全規則は現在未公開のようです)

Dublin Core(以下，DC)

原DBの記述対象はDCのResourceとする．

原DBでの表示対象情報はすべて表示．つまりDCのいずれかに割り当てる．

Resourceの内容が対象とする時間範囲はDCのCoverage(Temporal)とする．

Resourceに起きた事象に関する時間情報はDCのDataとする．

Resourceの内容が対象とする地理的情報はDCのCoverage(Spatial)とする．

Resourceが製作あるいは使用された地理的情報はDCのCoverage(Spatial)とする．

5W1H

マッピング対象はWho，What，When，Whereとする．

文で記述された情報や備考，上記4つにマッピングできない情報はOtherにマッピングする．

時空間情報

時間情報は正規化した時間の区分で表現する．

空間情報は緯度経度の矩形範囲で表現する．

矩形範囲は北西端と南東端の組．

原DBでの記述表現は適切と判断される数値範囲に変換する．

原DBでの記述表現は別途残す．

その他

DCでは別途検索用，結果表示用のメタデータを設ける．

原DBの各項目を上記それぞれのメタデータ及びAnyに独立でマッピングする．

5W1Hは検索のみで使用し，結果表示はDCを用いる．

4. マッピングの課題

NIHUメタデータマッピング規則を策定するにあたり，様々な課題があったようです．

モノ情報に関する問題

原DBが管理するモノはDCの場合，Resource(資源)かContents(内容)か．

DCの場合，(楽器や土器等)モノによってType，Subject，Description等複数の項目に割り当ての可能性がある．

時間情報に関する問題

DCのResourceに生じた時間情報(製作時期，使用年代等)はDCのDateが適用．

DCのCoverageには資源の内容が表している時間的な範囲がある．

空間情報に関する問題

DCのCoverage(Spatial)が有力だが，資源そのものの空間的情報(製作地，使用地等)は記述項目がない．

DBによって表記が様々．「縄文時代中期」とか「ジャワ島東南部海岸地域」等．

Creator情報に関する問題

例えば何らかの演奏の場合，DCのCreatorは演者か，記録者か．

モノと時間に関する問題

時間と共に管理内容が変化するケースがある．

ex)手紙：当初は内容が重要だが，時代を経ると素材や折り目等，素材も重要になる．

一般的な問題

DCにマッピングすることで，個々の要素の定義や意味があいまいになる場合がある．

DCのAnyを用いることで一部回避しているが，原DBの全項目のマッピングが本当に必要かどうか検討を要する．

時空間情報では一部矩形範囲に正規化したが，それが妥当かどうか検証を要する．

DCのDumb-Down規則に反する部分が出てきた．

ryojin3の考察

さて，一連の概要を読んでの考察です．

今回は人間文化研究機構の研究資源共有化事業の1つである研究資源共有化システム，それも統合検索システムのみをフォーカスして書きました．

このシステムは，100を超える人文系DBを共通メタデータと1つのインターフェースで連動させたという点で，高い利便性が実現できたと言うことができると思います．

もちろん，これまでにも博物館情報を連携する同様の試みはいくつかあります．
例えば，前回書いた国立美術館の情報連携や文化遺産オンラインもそうですし，自然科学系の分野では，地球規模生物多様性情報機構(GBIF：Global Biodiversity Information Facility)の試みがあります．GBIFでは，Darwin Coreという標本・観察データを記述できるXML形式の標準と専用プロトコルを用い，動物・植物・微生物・菌類・タンパク質データや生態系データにいたるまで，様々な機関で蓄積された種々のデータを世界規模で相互利用しようとしています．

自然科学系は対象が違いすぎるので，また別の機会に掘り下げるとして，人文科学系の博物館情報の連携という観点でこのシステムを見てみると，やはりそこではメタデータマッピングにおける意味的なずれが生じていることが問題となっています．

山本氏は論文の最後で，このシステムを用いても全DBをあたかも1つのDBのように利用できることにはならない，と締めくくっています．氏は個々のDBができた経緯から共通メタデータの限界に触れ，キチンとした横断検索を実現する手段として，統合検索システムで全DBをスキャンし，関心があるDBについては個々のDBを精密に検索する，そのような二段構えの仕組みが必要だとしています．

ryojin3もこの意見には賛成です．ただ，どうせなら全DBをスキャンした段階である程度ユーザが欲する(と思われる)ジャンル(スキーマ)を提示できる仕組みがあると，なおいいなと考えています．

観光立国の現状

外国語の案内職員配置１８％博物館の観光対応は不十分(47 NEWS)

出るかなと思って少し待っていたのですが，まだ各省のページにはニュースリリースが見当たりません．GW 明けなのかな．

もう少し情報収集してから，情報提供サービスについていろいろ考えてみたいと思います．

「独立行政法人国立美術館における情報＜連携＞の試み」を読んで

東京国立近代美術館が全文pdfで閲覧が可能な研究紀要第12号(2008.04.08)を発行しています．

その中で，美術館の情報連携に関する論文が発表されていました．

水谷長志, 室屋泰三, 丸川雄三: "独立行政法人国立美術館における情報〈連携〉の試み－美術館情報資源の利活用試案ならびに他関連機構との連携について", 東京国立近代美術館紀要, No.12, pp.5-26, 2008.(pdf)

この論文について，少しまとめておきます．

主な要点は以下の通りです．

既に公開されている情報資源の整理
いろいろな連携プロジェクトの紹介

所蔵作品総合目録検索システムと文化遺産オンラインの情報連携

美術館の所蔵図書の情報連携(ALCとWebcat)

所蔵作品・所蔵図書・アートコモンズと想 - IMAGINEの情報連携

考察

それぞれについて，簡単な解説と考察を加えます．

1. 既に公開されている情報資源の整理

国立美術館とは

東京国立近代美術館，京都国立近代美術館，国立西洋美術館，国立国際美術館，国立新美術館の5館を運営する独立行政法人

国立美術館の公開情報

独立行政法人国立美術館所蔵作品総合目録検索システム(通称 4館総合目録)

東京国立近代美術館，京都国立近代美術館，国立西洋美術館，国立国際美術館の所蔵作品が対象

作品のメタデータを文字列検索あるいは絞り込み検索できる

約31000件(2008.03.35現在)

遊歩館

4館総合目録へのリンクがあるから，恐らく対象は4館総合目録と同じ
フラッシュを使った仮想リーフレット型ナビゲーションインターフェース
約1000件．データの入換については不明

所蔵図書検索システム(1)

東京国立近代美術館と国立新美術館の合同運営
OPACによる公開

ALC、NACSIS-CAT、Webcatと連携

所蔵図書検索システム(2)

国立西洋美術館の運営
OPACによる公開

国立新美術館アートコモンズ

国立新美術館の運営
展覧会情報の公開

想 - IMAGINE - と連携

上記の公開情報と国立美術館の事業展開は，国立美術館のWebサイトからリンクしてあるが，システム・運営主体(各館)・法人としてのプレゼンス(存在感)を向上させるためには，間口(人，方法，機会等)を広げ，更なる他関連機構との連携が必要．

2. いろいろな連携プロジェクトの紹介

■所蔵作品総合目録検索システムと文化遺産オンラインの情報連携

文化遺産オンラインとは

文化庁の文化財ポータルサイト
2007年10月現在80館が参加
2008年4月現在60359件が公開
各館から文化遺産オンラインへの登録方法

CSV形式でDBにインポート

オンラインで作品を1点ずつ登録

実証実験(1)

国立情報学研究所，東京国立博物館，東京国立近代美術館が参加
2005年〜2006年度にかけて実施
作品形式の変換

XSLTを用いて各館のデータを文化遺産オンライン用XMLに変換

作品情報の収集

OAI-PMHを用いて各館のXMLデータを文化遺産オンラインが収集

実証実験(2)

4館総合目録を実証実験(1)の方法で文化遺産オンラインが収集
2007年10月に実施
登録件数が577件から28000件あまりに増加
内訳

東京国立近代美術館 11831点

京都国立近代美術館 6950点

国立西洋美術館 4242点

国立国際美術館 5330点

計 28353点

■美術館の所蔵図書の情報連携(ALCとWebcat)

ALC(Art Libraries Consortium)とは

美術図書館連絡会．参加館が図書情報を持ち寄り，美術図書の館横断検索システムを提供している．

Webcatとは

学術研究目的の図書情報検索サービス．

情報連携の流れ

2007年4月からALCの横断検索の対象にWebcatが含まれた．
美術館図書室のメインコンテンツである展示会カタログのデータ作成手順が明確になった．

展覧会カタログに関する取扱い及び解説

コーディングマニュアル(展覧会カタログに関する抜粋集)

2005年から2006年にかけて大学や美術館を中心に展示会カタログの遡及データ作成が盛んに行われるようになった．

■所蔵作品・所蔵図書・アートコモンズと想 - IMAGINEの情報連携

想 - IMAGINE - とは

国立情報学研究所が開発した検索システム．複数のDBを一覧できるインターフェースと各DBを検索する連想検索エンジン「GETA」を持つ．

想 - IMAGINE Arts 構想

想 - IMAGINE - のアート版．4館総合目録とアートコモンズ情報，早稲田大学演劇博物館浮世絵データベース，東京国立博物館名品ギャラリー等が連携する予定．

アートコモンズとは

国立新美術館の展覧会情報サービス．
2007年12月現在，以下の情報を提供．
展覧会情報 12313件
美術館・美術団体・画廊情報約600件
情報は増える一方で，コストの都合上情報提供の質を上げるのは困難になりつつある．

予備実験(1)

4館総合目録(文化遺産オンライン実証実験(2)で用いたデータ)をGETAに食わせる実験．
2007年度に実施．

予備実験(2)

アートコモンズから出力した展覧会情報から検索用メタデータを抽出．
メタデータは想 - IMAGINE Artsに登録．
登録することで，文化遺産オンラインや東京国立博物館名品ギャラリー等と共に横断検索・情報提供が可能となった．

3. 考察

■メタデータの利用

アートコモンズと想 - IMAGINE Artsの連携予備実験からもわかるように，アートコモンズの情報をメタデータ化し，様々なシステムで利用することでメタデータを介した緩やかなシステム連携が可能．
アートコモンズに限らず，各館で管理している情報群(4館総合目録や，図書情報)からメタデータを抽出，構造化しておくことでメタデータを媒介に様々なシステム連携が可能かもしれない．

長くなりましたが，以上が論文のまとめです．長すぎてあまりまとまっていないか...

ryojin3の考察

さて，この論文を読んでの考察です．

このような取り組みはユーザにとっては非常に嬉しいものです．なぜなら，ユーザにとって利便性(検索システム毎に検索方法を覚えなくて良い)・網羅性(一度の検索で複数のシステムを検索できる)・質の確保(美術館のお済み付きの情報)といった観点から非常に有益だと考えられるからです．

また，メタデータを用いてシステムを媒介させるアプローチも正解だと思います．メタデータは人間の知識が反映されたものであり，コンピュータはメタデータを指針に，ユーザの欲する解を探しやすくなると言えます．

ここで問題なのは，どのようにメタデータをハンドリングすべきかに帰着するでしょう．

例えば，4館総合目録と文化遺産オンラインの連携では，目録を文化遺産オンライン形式に変換することで連携を実現しています．目録のどの項目を文化遺産オンラインのどの項目にマッピングすべきかを考えるには，専門家の知識が求められます．

また，アートコモンズの展覧会情報はChasenで形態素解析され，必要と思われる語彙をメタデータとしてGETAに食わせることで想 - IMAGINE Artsでの検索を実現しています．ここでは形態素解析の結果から必要語彙を抽出し辞書を作成する作業はやはり専門家が行うことになります．

専門家が用意したマッピングパターンや語彙は，一般ユーザが行ったそれと比べ，信頼性が高いのは事実です．しかし，専門家と言えども人間が行うそれらの行為には，どうしてもマッピングのずれ(本当に正しい対応が取れているか)や，必要な語彙のずれ(本当に必要な語彙が選定されているか)が生じると思われます．

また，今回の論文では取り上げられていませんでしたが，博物館系のメタデータには，これまで他の投稿記事で述べた通り，世界的あるいは国内の標準と呼ばれる形式があります．これらの標準メタデータ形式を中間形式としてデータの相互変換を行うことも考えられますが，やはりキッチリやろうとすると，上述のようなずれが生じやすくなります．

このようなずれを解消するためには，キッチリとしたメタデータの運用(ある特定のメタデータ形式にマッピングするとか，必要な語彙を選定する，等)はさほど重要ではないのかもしれません．つまり，各館が管理するデータベースのスキーマを，インターオペラビリティの確保を前提に，緩やかに分解統合できるような仕組みが必要になるのだと思います．

そのような仕組みについて考えていることがありますが，それはまた次回^^

登録: 投稿 (Atom)

博物館情報学のススメ

博物館の情報化に関するアレコレを書きしたためるblog

博物館の資料の状況

研究資源共有化システム

観光立国の現状

「独立行政法人国立美術館における情報＜連携＞の試み」を読んで

Profile

Blog内検索

Contact

Blog Archive