「PDF」タグアーカイブ

しおりのエクセル読み込み、HTML書き出し

文書をスキャンしてPDFを作成する場合、しおりを付けずに納品するケースがあります。その際、検索ができるようにOCR処理を行ない、透明テキスト付きPDFにします。
また、PDFを見出し単位に分割して保存し、見出しをエクセルに入力して、該当のPDFへハイパーリンク設定を行なう場合もあります。ハイパーリンクの設定は、VBA又はハイパーリンク関数を用いて行います。
次のケースは、エクセルに入力したしおり名、ページ、階層の情報を、しおりの付いていないPDFへ一括で付加する例です。JavaScriptを用いて、自動処理でPDFへしおりを付加します。

■階層なし(エクセル→PDF)

excel_1.gif
pdf_1.gif

■階層あり(エクセル→PDF)

excel_2.gif
pdf_2.gif

この方法ならば、これまでOCR処理しか行なっていなかったPDFへも、手間をかけずにしおりを付加できるので利便性の向上が図れ、PDFを分割したりハイパーリンク設定を行なう手間も省略できます。
また、しおり付きのPDFからしおりの情報を抽出し、HTMLへ書き出すことができます。HTMLのリンク先はPDFのしおりページです。
PDFを分割しなくても、該当のしおりページへリンクすることができます。
Webページやブログに組み込んでしおりページへリンクさせたり、目次ページを作成する等の使い方もできます。
一旦、しおりの情報をエクセルへ書き出してから、関数を使ってHTMLタグを付け加えています。

■階層なし(PDF→エクセル→HTML)

mokuji_1.gif

目次

Total Documentation Solution ….. P1
ローカリゼーションDTP ….. P2
InDesign/FrameMaker DTP ….. P3
デザイン系DTP ….. P5
翻訳 ….. P6

■階層あり(PDF→エクセル→HTML)

mokuji_3.gif

目次

Total Documentation Solution ….. P1
 ローカリゼーションDTP ….. P2
  InDesign/FrameMaker DTP ….. P3
   デザイン系DTP ….. P5
翻訳 ….. P6

OCR後のチェック・修正について

現在、日本語OCRソフトの種類は膨大にあり、フリーソフトやシェアウェア、PDF関連ツール等にもOCR機能を持つものが多数存在します。
ただ、良いOCRソフトは非常に少なく、概ね変換精度は低レベルと言わざるを得ない状況です。
そんな中、利用者が多く比較的評価の高いOCRソフトとして、「アクロバット」、「読んde!!ココ」、「読取革命」、「e.Typist」、「瞬簡PDF」の5種類は、まあまあお勧めできるかな…と思います。
しかし、上記5種類のOCRソフトでも、原稿の状態や特性によっては驚くほど読み取り精度が低下する場合があるので、現状の日本語OCRの水準はまだまだ発展途上ということなのだと思います。
OCR処理後、透明テキスト付きPDFに保存し、全文検索をかけて該当のキーワードがどうにかヒットするレベルでも納得できるのであれば、上記のOCRソフトでもほぼ問題ありません。
でも、もっと高精度を求める場合には、現状では人のチェック・修正という作業に頼らなければなりません。
もし、完璧にチェック・修正作業を行うと、始めから新規テキスト入力を行うのと変わらないくらいの時間とコストがかかってしまします。
これでは、OCRソフトを使用する意味が全くなくなってしまいます。
そこで、折衷案としてOCRかけっぱなし状態と完璧にチェック・修正を行う場合の中間、それなりにまともな状態に仕上げるというオプションをご提案します。
これは、OCRかけっぱなし状態のデータに対し校正ツールをかけ、明らかにおかしな箇所の周辺だけ重点的に修正を行うというものです。
校正ツールは、ワードのスペルチェックと文章校正が良さそうです。
大幅な時間短縮とそこそこの品質向上が図れ、テキストデータ又は透明テキスト付きPDFに保存できれば、それなりに有効なサービスになるのではないでしょうか。
これを実現するにはもう少し検証が必要ですが、コスト・納期の兼ね合いから、やや品質を犠牲にしても構わないというお客様には、ご検討いただけるサービスではないかと考えております。

しおりの書き出し(エクスポート)

しおりの読み込み(インポート)は、しおり付加作業の大幅な省力化及びPDFの使い勝手の向上という大きな改善効果が期待できます。
それでは、しおりの書き出し(エクスポート)にはどのようなメリットがあるのでしょうか?
すでにしおりが付加されているPDFをアクロバットで閲覧する場合には、敢えてしおりをテキストデータ等へ書き出すメリットはあまり無さそうです。
しかし、PDFがWebサーバー等に格納されていて、ネット経由でPDFのしおりへリンクしたい場合は、あらかじめしおりをテキストデータ等に書き出しておいて、ハイパーリンク設定を施して該当のしおりページへリンクする方法が考えられます。
HTMLからPDFのしおりページへリンクするには、しおり名とページ番号が必要になります。
しおり名とページ番号を書き出す方法は、「JUST PDF3(高度編集)」のエクスポートが便利です。
一旦、しおりページはPDFへ書き出されますが、後からエクセルの関数を用いてHTML用にタグ付けを行います。
この部分のワークフローは若干煩雑なので、もう少し改良を加える必要があります。
このように、しおりのインポートとエクスポートを行うことにより、PDFの活用の幅がさらに広がり、新たなサービスの提供へと繋がる可能性があるように思います。
実際に、PDFのしおりから作成したハイパーリンクの例です。
以下のリンク先は、PDFのしおりへダイレクトにハイパーリンクしています。

Total Documentation Solution ….. P1
ローカリゼーションDTP ….. P2
InDesign/FrameMaker DTP ….. P3
デザイン系DTP ….. P5
翻訳 ….. P6

しおりの読み込み(インポート)

PDFには、しおりという大変便利な機能があります。
しおりは、目次と同様の役割を持っており、ワードやエクセルなどのオフィス系アプリからPDFを作成する際には、自動的にしおりを付加することができます。
しかし、スキャン画像からPDFを作成する場合、後からアクロバットで一件ずつ入力しなければなりません。
アクロバットには、しおりを読み込んだり(インポート)、書き出したり(エクスポート)する機能がありません。
しおりのインポート・エクスポートができたら、もっと使い勝手が向上するのは間違いないでしょう。
そこで、PDFのしおりに関連する有料・無料のツールを色々と調べてみました。
ネットを検索してみると、フリーソフトやシェアウェア、製品版等が多数ヒットします。
JavaScriptを使って処理する方法もあるようですが、エクセルと連携できるものが良いと思いました。
エクセルにしおり名、リンクするページ、しおりの階層を指定するだけで、後はしおりを付加するPDFファイルを選択して実行すればOK!というシンプルな機能で十分です。
しおりの階層は10階層も指定できれば十分ではないでしょうか。
いくつか実務に使えそうなソフトがありました。
これまでしおりの付加は、アクロバットで一件ずつ入力、リンク設定を繰り返さなければならなかったので、それなりの時間とコストがかかるものという既成概念がありました。
これからは、ツールの有効活用により大幅な省力化が可能になります。
今後、時間とコストの問題からしおりの付加を見送っていたお客様にも、きっと満足していただけるしおり付きPDFをご提供できるのではないかと考えております。

PDF埋め込みサンプル

ワードプレスをPDFの検索用インターフェースとして活用する方法があります。
PDFのURLを指定しプラグインを利用するだけで、下の様にPDFの内容を表示することができます。
また、以下の様に頁番号を指定して、該当頁のPDFを表示する方法も可能です。
これらはエクセルから一括で読み込むことができるので、手軽にPDF検索用の簡易システムを構築できます。
PDFの埋め込みには、Embed PDF というプラグインを使用しています。

検索キー:業務案内

P.1 P.2 P.3 P.4 P.5 P.6 P.7