タグ別アーカイブ: しおり

ページめくりができるPDF

ページめくりができるPDFのサンプルページです。
代表的なものを3種類ご紹介します。

「速ワザ」は、しおり機能、オリジナルPDFのダウンロード機能等もあり、高性能の割には低価格なのでお勧めのアプリケーションソフトです。
「速ワザ」と「aXmag」は体験版で作成しましたが、機能や使い勝手、デザイン等は正規版と同等です。
「issuu」は、デジタル出版プラットフォームと呼ばれるサービスで、基本的に無料で利用できますが、広告無しの有料サービスも行なっており、サイトへの埋め込みにも対応しています。
海外サイト(英語表記)のため、機能やサービスの詳細については未確認です。

> 業務案内 速ワザ
> 業務案内 aXmag
> 業務案内 issuu

OCR後チェック・修正の課題

最近のOCRソフトには、PDFやテキスト以外にオフィス系アプリ(ワード、エクセル、パワーポイント)へ保存できるものが沢山あります。
しかし、オフィス系アプリへ変換を行い、すぐに利用できるほど変換精度の高いOCRソフトはほとんどありません。
チェック・修正、特にレイアウト等の修正に膨大な時間をかけるくらいならば、最初から作り直した方がマシではないか…というケースも決して少なくありません。
そこで、お勧めしているのは「OCRかけっぱなし」と「しおりの自動付加」です。
これならば、全文検索としおりの活用ができ、納期面・コスト面共に納得いただけるのではないでしょうか。
もう少し検索の精度を高めたいならば、見出しレベル(章・節・項…)だけチェック・修正を行うという方法があります。
また、文字化けやあきらかな読取りエラーだけ修正する方法もあります。
「e.Typist」には全文解析という機能があり、疑わしい語句だけ拾い出すことができます。
これはワードの校正ツールに似たものですが、「読んde!!ココ」や「読取革命」等他のOCRソフトにはない機能です。
「e.Typist」には、全文解析以外に置換リストという機能もあり、これは置換前、置換後の文字列をテキストデータとして保存し、一括で置換を行うことができます。
これらのツールを活用すれば、それほど手間をかけずにある程度の品質向上が図れます。
どうしてもオフィス系のデータとして再利用したい場合には、テキスト、図、表の各要素に分類して、テキストデータ、イメージデータ、エクセルデータとして完成させた後に、オフィス系アプリへ統合する方法があります。
いきなりオフィス系アプリ(ワード、エクセル、パワーポイント)に変換して、チェック・修正、レイアウト修正を行うよりは、いくらかは作業が軽減できると思います。
いずれにしても、どこまで時間とコストを捻出できるのかによるのではないでしょうか。

しおりのエクセル読み込み、HTML書き出し

文書をスキャンしてPDFを作成する場合、しおりを付けずに納品するケースがあります。その際、検索ができるようにOCR処理を行ない、透明テキスト付きPDFにします。
また、PDFを見出し単位に分割して保存し、見出しをエクセルに入力して、該当のPDFへハイパーリンク設定を行なう場合もあります。ハイパーリンクの設定は、VBA又はハイパーリンク関数を用いて行います。
次のケースは、エクセルに入力したしおり名、ページ、階層の情報を、しおりの付いていないPDFへ一括で付加する例です。JavaScriptを用いて、自動処理でPDFへしおりを付加します。

■階層なし(エクセル→PDF)

excel_1.gif
pdf_1.gif

■階層あり(エクセル→PDF)

excel_2.gif
pdf_2.gif

この方法ならば、これまでOCR処理しか行なっていなかったPDFへも、手間をかけずにしおりを付加できるので利便性の向上が図れ、PDFを分割したりハイパーリンク設定を行なう手間も省略できます。
また、しおり付きのPDFからしおりの情報を抽出し、HTMLへ書き出すことができます。HTMLのリンク先はPDFのしおりページです。
PDFを分割しなくても、該当のしおりページへリンクすることができます。
Webページやブログに組み込んでしおりページへリンクさせたり、目次ページを作成する等の使い方もできます。
一旦、しおりの情報をエクセルへ書き出してから、関数を使ってHTMLタグを付け加えています。

■階層なし(PDF→エクセル→HTML)

mokuji_1.gif

目次

Total Documentation Solution ….. P1
ローカリゼーションDTP ….. P2
InDesign/FrameMaker DTP ….. P3
デザイン系DTP ….. P5
翻訳 ….. P6

■階層あり(PDF→エクセル→HTML)

mokuji_3.gif

目次

Total Documentation Solution ….. P1
 ローカリゼーションDTP ….. P2
  InDesign/FrameMaker DTP ….. P3
   デザイン系DTP ….. P5
翻訳 ….. P6

しおりの書き出し(エクスポート)

しおりの読み込み(インポート)は、しおり付加作業の大幅な省力化及びPDFの使い勝手の向上という大きな改善効果が期待できます。
それでは、しおりの書き出し(エクスポート)にはどのようなメリットがあるのでしょうか?
すでにしおりが付加されているPDFをアクロバットで閲覧する場合には、敢えてしおりをテキストデータ等へ書き出すメリットはあまり無さそうです。
しかし、PDFがWebサーバー等に格納されていて、ネット経由でPDFのしおりへリンクしたい場合は、あらかじめしおりをテキストデータ等に書き出しておいて、ハイパーリンク設定を施して該当のしおりページへリンクする方法が考えられます。
HTMLからPDFのしおりページへリンクするには、しおり名とページ番号が必要になります。
しおり名とページ番号を書き出す方法は、「JUST PDF3(高度編集)」のエクスポートが便利です。
一旦、しおりページはPDFへ書き出されますが、後からエクセルの関数を用いてHTML用にタグ付けを行います。
この部分のワークフローは若干煩雑なので、もう少し改良を加える必要があります。
このように、しおりのインポートとエクスポートを行うことにより、PDFの活用の幅がさらに広がり、新たなサービスの提供へと繋がる可能性があるように思います。
実際に、PDFのしおりから作成したハイパーリンクの例です。
以下のリンク先は、PDFのしおりへダイレクトにハイパーリンクしています。

Total Documentation Solution ….. P1
ローカリゼーションDTP ….. P2
InDesign/FrameMaker DTP ….. P3
デザイン系DTP ….. P5
翻訳 ….. P6

しおりの読み込み(インポート)

PDFには、しおりという大変便利な機能があります。
しおりは、目次と同様の役割を持っており、ワードやエクセルなどのオフィス系アプリからPDFを作成する際には、自動的にしおりを付加することができます。
しかし、スキャン画像からPDFを作成する場合、後からアクロバットで一件ずつ入力しなければなりません。
アクロバットには、しおりを読み込んだり(インポート)、書き出したり(エクスポート)する機能がありません。
しおりのインポート・エクスポートができたら、もっと使い勝手が向上するのは間違いないでしょう。
そこで、PDFのしおりに関連する有料・無料のツールを色々と調べてみました。
ネットを検索してみると、フリーソフトやシェアウェア、製品版等が多数ヒットします。
JavaScriptを使って処理する方法もあるようですが、エクセルと連携できるものが良いと思いました。
エクセルにしおり名、リンクするページ、しおりの階層を指定するだけで、後はしおりを付加するPDFファイルを選択して実行すればOK!というシンプルな機能で十分です。
しおりの階層は10階層も指定できれば十分ではないでしょうか。
いくつか実務に使えそうなソフトがありました。
これまでしおりの付加は、アクロバットで一件ずつ入力、リンク設定を繰り返さなければならなかったので、それなりの時間とコストがかかるものという既成概念がありました。
これからは、ツールの有効活用により大幅な省力化が可能になります。
今後、時間とコストの問題からしおりの付加を見送っていたお客様にも、きっと満足していただけるしおり付きPDFをご提供できるのではないかと考えております。