「OCR」タグアーカイブ

価格表

スキャン関連業務の価格表を以下に記載します。
上段がADF(原稿自動送り)、下段が手置き(フラットベッド)の価格表です。
TablePress というプラグインを使い、エクセルデータをワードプレスへインポートしました。

ADF(自動原稿送り)スキャン 
原稿サイズ名刺サイズからA3サイズまで
解像度300dpi推奨
白黒7円・・・原稿の状態、ボリュームにより変動します。
カラー、グレー14円・・・原稿の状態、ボリュームにより変動します。
OCR5円・・・OCRの読み取り精度は90%~95%程度です。
校正・修正新規入力費/校正・修正費 0.75円(文字)・・・99.97%以上の精度をお求めになる場合(オプション)
手置き(フラットベッド)スキャン 
原稿サイズ名刺サイズからA3サイズまで
解像度300dpi推奨
白黒20円・・・原稿の状態、ボリュームにより変動します。
カラー、グレー30円・・・原稿の状態、ボリュームにより変動します。
OCR5円・・・OCRの読み取り精度は90%~95%程度です。
校正・修正新規入力費/校正・修正費 0.75円(文字)・・・99.97%以上の精度をお求めになる場合(オプション)

株式会社バーテムズネットワークス Virtems Networks Inc.

OCR後チェック・修正の課題

最近のOCRソフトには、PDFやテキスト以外にオフィス系アプリ(ワード、エクセル、パワーポイント)へ保存できるものが沢山あります。
しかし、オフィス系アプリへ変換を行い、すぐに利用できるほど変換精度の高いOCRソフトはほとんどありません。
チェック・修正、特にレイアウト等の修正に膨大な時間をかけるくらいならば、最初から作り直した方がマシではないか…というケースも決して少なくありません。
そこで、お勧めしているのは「OCRかけっぱなし」と「しおりの自動付加」です。
これならば、全文検索としおりの活用ができ、納期面・コスト面共に納得いただけるのではないでしょうか。
もう少し検索の精度を高めたいならば、見出しレベル(章・節・項…)だけチェック・修正を行うという方法があります。
また、文字化けやあきらかな読取りエラーだけ修正する方法もあります。
「e.Typist」には全文解析という機能があり、疑わしい語句だけ拾い出すことができます。
これはワードの校正ツールに似たものですが、「読んde!!ココ」や「読取革命」等他のOCRソフトにはない機能です。
「e.Typist」には、全文解析以外に置換リストという機能もあり、これは置換前、置換後の文字列をテキストデータとして保存し、一括で置換を行うことができます。
これらのツールを活用すれば、それほど手間をかけずにある程度の品質向上が図れます。
どうしてもオフィス系のデータとして再利用したい場合には、テキスト、図、表の各要素に分類して、テキストデータ、イメージデータ、エクセルデータとして完成させた後に、オフィス系アプリへ統合する方法があります。
いきなりオフィス系アプリ(ワード、エクセル、パワーポイント)に変換して、チェック・修正、レイアウト修正を行うよりは、いくらかは作業が軽減できると思います。
いずれにしても、どこまで時間とコストを捻出できるのかによるのではないでしょうか。

「読んde!!ココ」の傾き補正に関する問題点

「読んde!!ココ」はOCRソフトですが、スキャン画像の傾き補正機能だけを使用することもできます。
単ページはもちろんですが、左右見開きページの傾き補正もできるので大変重宝しています。
自動傾き補正の機能がなかなか強力なので、大量のデータ処理が必要な時など、OCRファクトリーを使ってフォルダ単位に一括でスキャン画像の傾き補正を行うことができます。
また、白黒、カラー共に傾き補正後の品質劣化が少ない点もメリットとして挙げられると思います。
難点としては、PDFの読み込み、書き出しに時間がかかることと、保存するPDFのファイルサイズが大きくなることです。
しかし、意外な問題点が発覚しました。
保存するPDFのファイルサイズが大きいことには気付いていましたが、XEROXやキャノン、シャープ等のスキャナで作成するPDFは独自の圧縮技術を用いているので、「読んde!!ココ」で保存する際に圧縮が解除されているのかな?…くらいにしか考えていませんでした。
「読んde!!ココ」でPDF保存を行う場合、PDFのオプションは選択することができません。
まさか、白黒モードがRGBモードのPDFに変わっているとは考えもしませんでした。
納品後にお客様から指摘を受けた時は、本当に背筋に悪寒が走りました。
次に、RGBモードのPDFを、品質を劣化させずに白黒モードへ戻すにはどうすれば良いのか?…という問題に突き当たりました。
なかなか良い方法が見つからず困っておりましたが、フォトショップを使えばどうにかできそうだ…ということが判りました。
手順としては、まずPDFをアクロバットで単ページに分割し、次にフォトショップでRGBをグレースケールに落とし、さらにモノクロ2階調へ落とします。
その時、種類は「50%を基準に2階調に分ける」を選択します。
これらをアクションに記録し、フォルダ単位にバッチ処理を走らせました。
上記の処理を行い、RGBモードのPDFを白黒モードへ一括変換しました。
品質は残念ながら少々劣化しましたが、幸い許容範囲内でしたので事なきを得ました。
元々は私の確認不足が原因ではありますが、「読んde!!ココ」のPDF保存にはこのような問題点があるのでご注意ください。

しおりのエクセル読み込み、HTML書き出し

文書をスキャンしてPDFを作成する場合、しおりを付けずに納品するケースがあります。その際、検索ができるようにOCR処理を行ない、透明テキスト付きPDFにします。
また、PDFを見出し単位に分割して保存し、見出しをエクセルに入力して、該当のPDFへハイパーリンク設定を行なう場合もあります。ハイパーリンクの設定は、VBA又はハイパーリンク関数を用いて行います。
次のケースは、エクセルに入力したしおり名、ページ、階層の情報を、しおりの付いていないPDFへ一括で付加する例です。JavaScriptを用いて、自動処理でPDFへしおりを付加します。

■階層なし(エクセル→PDF)

excel_1.gif
pdf_1.gif

■階層あり(エクセル→PDF)

excel_2.gif
pdf_2.gif

この方法ならば、これまでOCR処理しか行なっていなかったPDFへも、手間をかけずにしおりを付加できるので利便性の向上が図れ、PDFを分割したりハイパーリンク設定を行なう手間も省略できます。
また、しおり付きのPDFからしおりの情報を抽出し、HTMLへ書き出すことができます。HTMLのリンク先はPDFのしおりページです。
PDFを分割しなくても、該当のしおりページへリンクすることができます。
Webページやブログに組み込んでしおりページへリンクさせたり、目次ページを作成する等の使い方もできます。
一旦、しおりの情報をエクセルへ書き出してから、関数を使ってHTMLタグを付け加えています。

■階層なし(PDF→エクセル→HTML)

mokuji_1.gif

目次

Total Documentation Solution ….. P1
ローカリゼーションDTP ….. P2
InDesign/FrameMaker DTP ….. P3
デザイン系DTP ….. P5
翻訳 ….. P6

■階層あり(PDF→エクセル→HTML)

mokuji_3.gif

目次

Total Documentation Solution ….. P1
 ローカリゼーションDTP ….. P2
  InDesign/FrameMaker DTP ….. P3
   デザイン系DTP ….. P5
翻訳 ….. P6

OCR後のチェック・修正について

現在、日本語OCRソフトの種類は膨大にあり、フリーソフトやシェアウェア、PDF関連ツール等にもOCR機能を持つものが多数存在します。
ただ、良いOCRソフトは非常に少なく、概ね変換精度は低レベルと言わざるを得ない状況です。
そんな中、利用者が多く比較的評価の高いOCRソフトとして、「アクロバット」、「読んde!!ココ」、「読取革命」、「e.Typist」、「瞬簡PDF」の5種類は、まあまあお勧めできるかな…と思います。
しかし、上記5種類のOCRソフトでも、原稿の状態や特性によっては驚くほど読み取り精度が低下する場合があるので、現状の日本語OCRの水準はまだまだ発展途上ということなのだと思います。
OCR処理後、透明テキスト付きPDFに保存し、全文検索をかけて該当のキーワードがどうにかヒットするレベルでも納得できるのであれば、上記のOCRソフトでもほぼ問題ありません。
でも、もっと高精度を求める場合には、現状では人のチェック・修正という作業に頼らなければなりません。
もし、完璧にチェック・修正作業を行うと、始めから新規テキスト入力を行うのと変わらないくらいの時間とコストがかかってしまします。
これでは、OCRソフトを使用する意味が全くなくなってしまいます。
そこで、折衷案としてOCRかけっぱなし状態と完璧にチェック・修正を行う場合の中間、それなりにまともな状態に仕上げるというオプションをご提案します。
これは、OCRかけっぱなし状態のデータに対し校正ツールをかけ、明らかにおかしな箇所の周辺だけ重点的に修正を行うというものです。
校正ツールは、ワードのスペルチェックと文章校正が良さそうです。
大幅な時間短縮とそこそこの品質向上が図れ、テキストデータ又は透明テキスト付きPDFに保存できれば、それなりに有効なサービスになるのではないでしょうか。
これを実現するにはもう少し検証が必要ですが、コスト・納期の兼ね合いから、やや品質を犠牲にしても構わないというお客様には、ご検討いただけるサービスではないかと考えております。