現在、日本語OCRソフトの種類は膨大にあり、フリーソフトやシェアウェア、PDF関連ツール等にもOCR機能を持つものが多数存在します。
ただ、良いOCRソフトは非常に少なく、概ね変換精度は低レベルと言わざるを得ない状況です。
そんな中、利用者が多く比較的評価の高いOCRソフトとして、「アクロバット」、「読んde!!ココ」、「読取革命」、「e.Typist」、「瞬簡PDF」の5種類は、まあまあお勧めできるかな…と思います。
しかし、上記5種類のOCRソフトでも、原稿の状態や特性によっては驚くほど読み取り精度が低下する場合があるので、現状の日本語OCRの水準はまだまだ発展途上ということなのだと思います。
OCR処理後、透明テキスト付きPDFに保存し、全文検索をかけて該当のキーワードがどうにかヒットするレベルでも納得できるのであれば、上記のOCRソフトでもほぼ問題ありません。
でも、もっと高精度を求める場合には、現状では人のチェック・修正という作業に頼らなければなりません。
もし、完璧にチェック・修正作業を行うと、始めから新規テキスト入力を行うのと変わらないくらいの時間とコストがかかってしまします。
これでは、OCRソフトを使用する意味が全くなくなってしまいます。
そこで、折衷案としてOCRかけっぱなし状態と完璧にチェック・修正を行う場合の中間、それなりにまともな状態に仕上げるというオプションをご提案します。
これは、OCRかけっぱなし状態のデータに対し校正ツールをかけ、明らかにおかしな箇所の周辺だけ重点的に修正を行うというものです。
校正ツールは、ワードのスペルチェックと文章校正が良さそうです。
大幅な時間短縮とそこそこの品質向上が図れ、テキストデータ又は透明テキスト付きPDFに保存できれば、それなりに有効なサービスになるのではないでしょうか。
これを実現するにはもう少し検証が必要ですが、コスト・納期の兼ね合いから、やや品質を犠牲にしても構わないというお客様には、ご検討いただけるサービスではないかと考えております。