技術

便利にMac:OCR変換ミスのPDFの修正

雑誌記事などをスキャンしてPDFにし、OCR変換しておけば、検索できるようになります。しかし、OCR変換ミスが結構多く、正直なところ、そのままでは使いものになりません。また、OCR変換された文字は透明テキストで保存されているため修正はどうすればいいか、戸惑ってしまいます。

OCR変換ミスの修正手順
① 右上のバーにある「ツール」をクリック➡「コンテンツ」をクリック➡「文書テキスト編集」をクリック。透明テキストの編集ができるようにします。
② 1ページ分の文字を選択します。
③ 右クリックしてプロパティを選択します。
④ 「フォント」を「MSGothic」に変更します。
⑤ 「塗りつぶし」を赤に変更します。色は環境によって適切なものを選択します。
⑥ プロパティを「閉じる」をクリック。
スクリーンショット 2013-04-11 10.14.47

⑦ このあと、OCR変換ミスを修正し、上記と同様のしかたで「塗りつぶし」を透明テキストに戻し(斜め斜線の色アイコン)、元の設定にに戻せば、修正は完了です。

「テキストボックスを追加または編集」による方法
もうひとつの方法として「テキストボックスを追加または編集」を使い、テキストボックスにOCR変換ミスを修正したものを入れ、文字を地色と同じにして見えなくしてしまう方法があります。もちろん、テキストボックスには全文を入れてもいいし、検索用のキーワードだけを入れるというのでも構いません。ただし、「テキストボックスを追加または編集」で文字を追加しただけでは、文字が見えてしまいます。透明にする必要がありますが、今のところ、方法がありません。そこで、地色と同じ色にすれば、透明状態になります。しかしながら、この方法だと、スキャンしたときに原稿の地色の白色を黄ばんだ色として拾い、結果的に文字を白色にしても白抜き文字にしてしまうので決定的な有効性に欠けるという問題が避けられません。どうしてもという場合、Adobe Photoshopで地色除去をするなど、余計な手間がかかってしまいます。

備考:
① 環境は、Windows 7、Adobe Acrobat X 10.1.6によります。
② Mac OS X 10.8、Adobe Acrobat X 10.1.6では、うまくいきませんでした。この項は「不便にMac」ということになります。

Categories: 技術, 便利にMac