名寄せ用データの公開(試行)について

 池ヶ谷@早大OC寿会です。
 7月からOC大会最多出場者云々という「副産物」を公開してまいりました
が、ぼちぼち、主たるアウトプットに焦点を移していきたいと思います。
 主産物、主たる狙いは何かというと、オリエンティアのデータベースを構築
するということです。
 
 今回、私が集めたデータを公開します。内容的には、過去に公開されている
成績表の印刷物、ネット上の主要な大会のデータを整理したレベルのもので、
このデータを見たからと言って個人を特定できる内容ではありません。
 
 データ量は莫大で8374件あり、機械的な名寄せに加え、人的ネットワー
クも駆使して、私にわかる範囲で名寄せしてありますので、重複登録は比較的
少なく、現在のところ、8269名分と見ています。
 この中にはすでに亡くなられた方も含まれていますが、未登録の人の方が
はるかに多いはずで、少なく見ても潜在的には、これ位のオリエンテーリング
人口はある、ということです。
 未登録という意味では、西日本エリアで、学生以外の方に漏れが多いのでは
ないかと想像しています。今年度の大会としては東大OLK大会、岩沼大会か
らデータを取りこんでいます。
 今回公開するデータは以下のものです。
  ■MSIME用かな漢字変換辞書データ(ほとんど、おまけです。)
  ■名寄せ用マスタデータ
 
 データ項目などは見ていただけばわかると思います。無効=1となっていて
グレーの網掛けになっているデータが二重登録のもので、名寄せ先コードの人
と同一人物と見たということを意味しています。
 同時に、これらをバージョンアップしていくためのお願い事項も書かせてい
ただきました。
 ふりがななどはニ千人分位は私がふりましたので、間違っている可能性も大
です。読めなかったかた、複数の読みが考えられる方など457人もリストア
ップさせていただきましたので、教えて下さい。
 今回データを整理していて、誤字などが多く、データ品質が低い大会が多い
ことを痛感しました。
 たとえば、読めない名前などについても、本データをコピー&ペースしても
らえば、正しく入力できると思います。そのためにも、本データ自身をブラッ
シュアップしていかないといけませんが。
 7月にも書きましたが、的場さんに1本、ラップコンバット用データからの
形式変換プログラムを作ってもらってありますので、この形式のデータがあれ
ば反映作業そのものは容易です。
 今後、運用も含めた、データ維持・更新の仕組みを構築していきたいと考え
ます。
 とりあえず、今回は、メールで、データの誤り(誤字、重複等々の指摘)、
活用方法案、その他、ご意見・ご質問をお寄せいただければ幸いです。
  http://www.yk.rim.or.jp/~ikegaya/o-data/
 よろしくお願いします。
[from orienteer-ML 04614]