サルベージ

忘れていたけどデータのサルベージ。
マザーグース ライム
ライム インデックス / Rhyme Indices のサルベージ
(旧 mothergoosetei.com)
ちょっと古い話ですが。
始めたのは1996年だから20年近く前、
マザーグースの電子化を初めて、それ以来公開しています。
ライム自体は著作権フリーなので、こつこつスキャンしてOCRしました。
htmlページスタイルの変更などに対応しやすいように、
テキストデータはEXCEL(後にOpen Office化)に保存して、VBAでページを吐いていました。
また全文検索エンジンnamazu用に白文も出力できるようにと。
10年位前にはドメインネームも返上して、マザーグースのページ更新を止めました。
その後、Open Officeのオリジナル ファイルを消してしまい、そのまま忘れていました…
まぁ、htmlページが残っているのでオリジナルのテキストも取得できるのですが、
手間なのでそのまま放おっていました。
それに、今日ようやく手を付けたという次第です。
シェルスクリプトでバッチ処理するだけのことですが、
久しぶりの何やかやで、結局4時間くらい、今日の午前中一杯かかりました。
英文、和文合わせて1,350のライムをテキストファイルにして取り出した。
再利用する具体的な目標はないですが、この形でキープしておこう。