はじめに
東京大学総合図書館所蔵の田中芳男文庫『捃拾帖(くんしゅうじょう)』は、幕末から大正時代にかけての商品ラベルやチラシ、パンフレットなど多種多様な印刷物を貼り込んだスクラップブックで、2018年6月に「田中芳男・博物学コレクション」において全帖がデジタル公開されました。2019年には史料編纂所との連携により、史料編纂所「摺物データベース」で公開されていた『捃拾帖』第1帖から第18帖までのメタデータを活用し、貼り込み資料単位の検索が可能な「電子展示『捃拾帖』」を公開しました(*1)。
その後、第19帖以降のメタデータ作成が課題となっていましたが、本学が実施している「オンキャンパスジョブ」の活用や、特に2020年度における在宅勤務時の作業によりメタデータ作成が進み(*2)、「外国捃拾帖」を除く全帖のデータ入力が完了しました。
その公開サイトが、「電子展示『捃拾帖』(拡張版)」です。拡張版では全96帖分の貼り込み資料単位の検索(拡張版でも第1~18帖目の資料を含んでいます)だけでなく、構造化されたデータによる人物・地名などの絞り込み検索や、機械学習による自動タグ付与といった実験的な試みも行っています。
『捃拾帖』に貼り込まれた様々な資料の中から、幕末から大正時代にかけての文化、風俗、社会を思いがけず知ることができるかもしれません。是非ご活用ください。
(*1)「電子展示『捃拾帖』」も、引き続き公開しています。
(*2)使われるための地道なデータづくりの話-コロナ禍だからできた「捃拾帖」 のタグ付け-(第4回東京大学学術資産アーカイブ化推進室セミナー資料)
『捃拾帖』の解説:田中芳男文庫と『捃拾帖』について (電気通信大学 佐藤 賢一)
第19帖以降のデータ入力ルールについて
- 原則として、資料に書かれてある主だった事項を入力しています。
- 旧字は新字に変換しています。
- 漢数字はアラビア数字に変換しています。
- くずし字は平仮名にして入力しています。
- 全て大文字アルファベットで書かれている場合は、先頭文字のみ大文字とし他は小文字で入力しています(固有名詞や人名等をのぞく)。
- 資料に明記されていないが容易に類推できるものは、〔 〕を付けて入力しています。また
- 判読できない文字がある場合は、 □(四角記号)を入力しています。
- 判読できないものは「不明」と入力しています。
- 第1~18帖のデータ入力ルールは、「電子展示『捃拾帖』」の凡例をご覧ください。
データの構造化
上記の人手によるタグづけに加えて、以下の2つのデータ構造化を実施しました。
- 入力タグからの固有表現抽出
- Google Cloud Vision APIによる物体検出
- 色の抽出
以下、それぞれについて説明します。
入力タグからの固有表現抽出
人手によって作成されたタグは、それぞれの貼り込み資料に書かれてあることをそのまま入力したものです。そこで5回以上出現したタグについては、「人名」「組織・機関名」「地名」「年代・時間」「キーワード」に該当するものを更に人手により抽出し、標準となる値も与えました。
例えば「田中芳男殿」「田中芳男男爵」というタグに対し、「田中芳男」という値を追加することで、表記の揺れを吸収した検索を可能にしています。
Google Cloud Vision APIによる物体検出
上述した人手によるメタデータ付与に加えて、機械的なメタデータの付与も行いました。具体的には、Google Cloud Vison APIの物体検出機能を利用して、貼り込み資料内の物体を検出しました。検出した物体(以下、機械タグ)には誤りも含まれたため、目視によるチェックを行い、明らかに誤っている結果は除外しています。
色の抽出
貼り込み資料および貼り込み資料から検出した物体のドミナントカラー(色)を抽出し、メタデータとして付与しています。ドミナントカラーの抽出には、NYPLが公開する以下の手法を使用しています。
https://github.com/nypl-publicdomain/pd-visualization#building-the-visualization
まとめ
上記のデータ構造化のプロセスを経て、次に示すメタデータの抽出と、それに基づく検索を可能としています。