« 機械翻訳 | トップページ | 次が来た »

2006年2月19日 (日)

文字認識

NEJM終了。あーホッとした。次は翻訳プロジェクトの下作業。スキャンしてOCR 化して用語集を用意して・・・。まずはスキャンから、と思ったのに、プログラム一覧にスキャナーのボタンがない。何で無いんだろう?と思ったら、あらヤだ、そういえばパソ子が倒れて以来、スキャナーを使う必要性がなかったのでインストールしていなかったんだ。なんか面倒くさいなぁ、いや、手順自体は簡単だし手馴れたものだけど、「さあヤルぞ!」と思ったところなのに作業の流れが中断するようでなんだかケチがつくというか。そうだ、TIF画像にしてe.Typistで読み込んじゃえ、と思ったので、PDFファイルを開けて、1ページずつTIF画像で保存。

さてこれをe.Typistで・・・と思ったら、私はアホである。これもインストールしてなかった・・・。あああああ。どっちにしろ面倒だ。どっちをインストールするか。非常に低レベルな話だけどコタツから出てインストールする作業がめんどくさい! せっかくTIFにしたのに、なんとかならんかしら、と思って未練がましくTIF画像を開く。そしたら、あれ、メニューバーにOCR認識っていうボタンがあるよ。なんだコレ? とりあえずクリックしてみる。OCRを認識します、というウィンドウが出て、さ~~っと作業バーが点滅する。数秒で終わったようだ。でもこれ、抽出したテキストはどこにあるの? 再びメニュバーを見ると、OCRデータをワードに送る、というボタンがある。えっ、ワードに送るの? イヤだなぁ、ワードを立ち上げると重くなるし遅くなるし、テキストに送るとかコピーするとかそういうメニューは無いのか?と思ったけど見当たらない。えーい仕方が無い、ワードに送るか、というわけでクリック。はい無事にワードに文面が送られました。

ちょっとちょっと、何よコレは。こんな便利なものが付いていたことを私は今まで知らなかったの? スキャナーも文字認識ソフトも要らないなんて! 調子に乗って自分の担当分の原稿をすべてこのやり方で認識させ無事にテキスト化終了。あっという間に(コタツから一歩も出ずに)終わってしまった。。。今回はたまたま先生が用意してくださったPDF原稿が非常にクリアでTIF画像からそのままOCR認識できる精度だったために問題なく文字認識できたのだろうと思うし、スキャナーを使わなければ対処できないもの(=紙媒体の本とか)やパッケージ版の有料かつ機能も精度もそろった文字認識ソフトが要る場合もあるだろうけれど、今回はこれでどうにかなってしまった。パソコンにはそれなりに詳しいつもりなんだけど、まだまだ知らない機能がいっぱいあるんだなぁ。でもまぁ感心してないで、どうせそのうち必要になるのだから、今回の作業が一段落したら、めんどーがらずにスキャナーと文字認識ソフトはインストールしておこう。

|

« 機械翻訳 | トップページ | 次が来た »

コメント

コメントを書く



(ウェブ上には掲載しません)




« 機械翻訳 | トップページ | 次が来た »