池ヶ谷@早大OC寿会です。 7月からOC大会最多出場者云々という「副産物」を公開してまいりました が、ぼちぼち、主たるアウトプットに焦点を移していきたいと思います。 主産物、主たる狙いは何かというと、オリエンティアのデータベースを構築 するということです。 今回、私が集めたデータを公開します。内容的には、過去に公開されている 成績表の印刷物、ネット上の主要な大会のデータを整理したレベルのもので、 このデータを見たからと言って個人を特定できる内容ではありません。 データ量は莫大で8374件あり、機械的な名寄せに加え、人的ネットワー クも駆使して、私にわかる範囲で名寄せしてありますので、重複登録は比較的 少なく、現在のところ、8269名分と見ています。 この中にはすでに亡くなられた方も含まれていますが、未登録の人の方が はるかに多いはずで、少なく見ても潜在的には、これ位のオリエンテーリング 人口はある、ということです。 未登録という意味では、西日本エリアで、学生以外の方に漏れが多いのでは ないかと想像しています。今年度の大会としては東大OLK大会、岩沼大会か らデータを取りこんでいます。 今回公開するデータは以下のものです。 ■MSIME用かな漢字変換辞書データ(ほとんど、おまけです。) ■名寄せ用マスタデータ データ項目などは見ていただけばわかると思います。無効=1となっていて グレーの網掛けになっているデータが二重登録のもので、名寄せ先コードの人 と同一人物と見たということを意味しています。 同時に、これらをバージョンアップしていくためのお願い事項も書かせてい ただきました。 ふりがななどはニ千人分位は私がふりましたので、間違っている可能性も大 です。読めなかったかた、複数の読みが考えられる方など457人もリストア ップさせていただきましたので、教えて下さい。 今回データを整理していて、誤字などが多く、データ品質が低い大会が多い ことを痛感しました。 たとえば、読めない名前などについても、本データをコピー&ペースしても らえば、正しく入力できると思います。そのためにも、本データ自身をブラッ シュアップしていかないといけませんが。 7月にも書きましたが、的場さんに1本、ラップコンバット用データからの 形式変換プログラムを作ってもらってありますので、この形式のデータがあれ ば反映作業そのものは容易です。 今後、運用も含めた、データ維持・更新の仕組みを構築していきたいと考え ます。 とりあえず、今回は、メールで、データの誤り(誤字、重複等々の指摘)、 活用方法案、その他、ご意見・ご質問をお寄せいただければ幸いです。 http://www.yk.rim.or.jp/~ikegaya/o-data/ よろしくお願いします。 [from orienteer-ML 04614]