「PDF」タグアーカイブ

エクセルとPDFのインポート例

弊社の業務紹介をワードプレスにインポートしてみました。
業務紹介はPDFで作成していますが、ワードプレスへ一括でインポートするために、読み込み用のエクセルデータを用意しました。

excel2wp

このままインポートすることも可能ですが、今回は1行を1ページ(1記事)としてインポートするために多少手を加えました。
エクセルの関数を用い、MovableType形式に書き出しました。

excel2txt

MovableType形式のテキストデータは、ツール > インポートから読み込みます。
テキストデータの文字コードは、必ずUTF-8に変更しておきます。

この方法で読み込んだ結果が以下のページです。
タイトル名、カテゴリーの指定、ハイパーリンク、PDFの埋め込み等を一括で行うことができます。

ページめくりができるPDF

ページめくりができるPDFのサンプルページです。
代表的なものを3種類ご紹介します。

「速ワザ」は、しおり機能、オリジナルPDFのダウンロード機能等もあり、高性能の割には低価格なのでお勧めのアプリケーションソフトです。
「速ワザ」と「aXmag」は体験版で作成しましたが、機能や使い勝手、デザイン等は正規版と同等です。
「issuu」は、デジタル出版プラットフォームと呼ばれるサービスで、基本的に無料で利用できますが、広告無しの有料サービスも行なっており、サイトへの埋め込みにも対応しています。
海外サイト(英語表記)のため、機能やサービスの詳細については未確認です。

> 業務案内 速ワザ
> 業務案内 aXmag
> 業務案内 issuu

エクセルをワードプレスへインポート

エクセルの表をワードプレスへインポートすることができます。
TablePressやコピー&ペーストで貼り付ける方法ではなく、エクセル1件(1行)が1記事(1投稿)になります。
1件の情報量が多く、文章情報以外に画像やPDFを含むような場合を想定しました。

一括で大量のエクセルデータをインポートする場合に有効な方法です。
エクセル側に指定できるのは、タイトル、カテゴリー、日付、内容(記事)、キーワード(タグ)です。
また、内容(記事)には文章だけではなく、HTMLタグやURLを指定することができます。
Movable Type and TypePad Importer というプラグインを使用します。

■ エクセルデータ(インポート前)
excel

■ ワードプレス(インポート後)
touko
 
エクセルの内容(記事)の項目は、商品説明、価格、商品画像のURL等、複数項目に分割することも可能です。PDFを格納しているURLを指定すれば、PDFの埋め込みやハイパーリンクを作成することもできます。
エクセルの関数とマクロを組み合わせてMovableType形式に書き出しているので、ワードプレスのツール→インポート→MovableType…を実行すれば任意のカテゴリーに記事が新規追加されます。

業務実績

これまでに携わった業務実績の一部を以下に記載しました。
主にスキャン関連業務を抜粋しています。
TablePress というプラグインを使い、エクセルデータをワードプレスへインポートしました。

業務名作業内容
医学学会「学会誌」約30000ペ―ジのスキャニング、検索用キーワード入力(論文タイトル、著者名、所属名、要旨等)
電子工学系学会「学会誌」約50000ページのスキャニング、検索用キーワード入力(論文タイトル、著者名、所属名、要旨等)
情報処理系学会「学会誌」約40000ページのスキャニング、書誌情報のテキスト入力・校正
研究機関「新聞」約30000ページのスキャニング、検索キーワード入力(記事名、著者名、所属名、発行年月日等)
薬事情報申請/審査/報告書類約10000ページのテキスト入力、XML化(DTD設計を含む)、印刷用PDF及びHTML自動生成のためのスタイルシート作成
研究機関「図書館の書誌情報」入力用原稿のスキャニング作業、目次・書誌情報入力
自動車部品メーカー「標準化マニュアル」約15000ページのスキャニング、Word編集(作図を含む)
建材メーカー「カラーカタログ」約10000ページのカラースキャニング・画像補正、検索用キーワード入力
金融機関「業務マニュアル」約10000ページのスキャニング、Word編集(作図を含む)
総合建築会社「標準仕様書」テキスト入力、Word編集(作図を含む)
出版社「ビジネス情報誌DVD化」約60000ページのカラースキャニング・画像補正
国土交通省「調査表」データエントリー、集計分析票作成
東京都某外郭団体「アンケート」データエントリー、集計分析票作成
国立大学某研究室「アンケート」データエントリー、集計分析票作成
全国地方自治体「広報」携帯電話向けテキスト入力・HTML作成
某議会「議会議事録」約100000ページのスキャニング
建材/住宅機器「カタログ」約300000ページのスキャニング、PDF最適化
自動車メーカー「カタログ」約10000ページのスキャニング、PDF最適化

株式会社バーテムズネットワークス Virtems Networks Inc.

OCR後チェック・修正の課題

最近のOCRソフトには、PDFやテキスト以外にオフィス系アプリ(ワード、エクセル、パワーポイント)へ保存できるものが沢山あります。
しかし、オフィス系アプリへ変換を行い、すぐに利用できるほど変換精度の高いOCRソフトはほとんどありません。
チェック・修正、特にレイアウト等の修正に膨大な時間をかけるくらいならば、最初から作り直した方がマシではないか…というケースも決して少なくありません。
そこで、お勧めしているのは「OCRかけっぱなし」と「しおりの自動付加」です。
これならば、全文検索としおりの活用ができ、納期面・コスト面共に納得いただけるのではないでしょうか。
もう少し検索の精度を高めたいならば、見出しレベル(章・節・項…)だけチェック・修正を行うという方法があります。
また、文字化けやあきらかな読取りエラーだけ修正する方法もあります。
「e.Typist」には全文解析という機能があり、疑わしい語句だけ拾い出すことができます。
これはワードの校正ツールに似たものですが、「読んde!!ココ」や「読取革命」等他のOCRソフトにはない機能です。
「e.Typist」には、全文解析以外に置換リストという機能もあり、これは置換前、置換後の文字列をテキストデータとして保存し、一括で置換を行うことができます。
これらのツールを活用すれば、それほど手間をかけずにある程度の品質向上が図れます。
どうしてもオフィス系のデータとして再利用したい場合には、テキスト、図、表の各要素に分類して、テキストデータ、イメージデータ、エクセルデータとして完成させた後に、オフィス系アプリへ統合する方法があります。
いきなりオフィス系アプリ(ワード、エクセル、パワーポイント)に変換して、チェック・修正、レイアウト修正を行うよりは、いくらかは作業が軽減できると思います。
いずれにしても、どこまで時間とコストを捻出できるのかによるのではないでしょうか。

スキャン後の画像補正(白黒の場合)

ADF付きスキャナの場合、断裁済みの原稿を読み込むので、元々曲がりが発生しにくい上、スキャナ自体に曲がり補正機能を有していることがあります。
そのため、敢えて曲がり補正(水平補正)を意識することは少ないかも知れません。
一方、手置きスキャナ(フラットベッドスキャナ)の場合は、ほぼ100%曲がりが発生するので、曲がり補正(水平補正)の工程は必須と言って良いでしょう。
しかし、曲がり補正ができるソフトウェアは意外に少なく、これまでは「読んde!!ココ」の曲がり補正を利用することがありました。
ところが、「読んde!!ココ」のPDF保存に問題があることが判ったため、さてどうしたものか…と思っていました。
その後、アクロバットXIに曲がり補正の機能があることに気が付きました。
「ゆがみ補正」という名称で、少々判りにくい場所にあります。

tool.gif

ツール→スキャンされたPDFを最適化→フィルター→ゆがみ補正
ゆがみ補正を「オン」にすると、PDFの曲がりを補正してくれることが判りました。

settei.gif

アクロバットのオンラインヘルプによると、最適化オプションのアダプティブ圧縮を適用とは、「各ページを白黒、グレースケール、カラーの領域に分割し、種類別に高い圧縮率で圧縮する一方で、見た目をほとんど変えずに表示します。」とありますので、チェックを入れておいた方が良いでしょう。
カラー/グレースケールについては、JPEG2000、ZIP、JPEGの3種類がありますが、どれも「圧縮をカラー画像コンテンツに適用します。」としか記述がないので、最も画質の劣化が少なそうなZIPを選択します。
白黒は、JBIG2(劣化なし)、JBIG2(劣化あり)、CCITT Group 4の3種類があります。JBIG2(劣化なし)はCCITT Group 4よりも60%の高圧縮が可能ですが、処理速度の低下、品質の劣化、Acrobat 5.0(PDF 1.4)以前のデータとの非互換等があるため、CCITT Group 4の選択をお勧めします。
高圧縮/高品質は、ファイルサイズの圧縮率と画質のバランスを設定します。
画質が気になる場合は、高品質にしておくのが無難かも知れません。
ゆがみ補正は、「スキャナーのガラス面の両端に対してページが平行に置かれていない場合、スキャンで生成されるPDFページがまっすぐになるように傾きを補正します。」とあり、これが曲がり補正(水平補正)のオプションであることが判ります。「オン」または「オフ」を選択します。
背景を除去の説明は次の通りです。
グレースケール画像やカラー画像を取り込むときに、白に近い色を白くします(白黒の画像には影響しません)。最適な結果を得るには、通常の白黒ページのテキストが濃い灰色または黒で、背景が白になるように、スキャナーのコントラストと明るさの設定をキャリブレーションします。次に、オプションを「オフ」または「低」にすると、適切な結果が得られます。オフホワイトの用紙または新聞用紙の場合は、「中」または「高」を選択します。
デフォルトは「オフ」です。
モアレフィルターの説明は次の通りです。
JPEG圧縮率を低下させ、モアレパターンを生じ、テキストを読みづらくする原因となるハーフトーンのドットを削除します。200~400dpiのグレースケール画像かRGB画像に適しています。また、アダプティブ圧縮の場合、400~600dpiの白黒画像に適しています。「オン」の設定(推奨)は300dpi以上のグレースケール画像とRGB画像のフィルターに適用します。 画像や塗りつぶされた領域がないページをスキャンするとき、または有効な範囲より高い解像度でスキャンするときは、「オフ」を選択します。
デフォルトは「オン」です。
テキストシャープニングの説明は次の通りです。
スキャンされたPDFファイルのテキストを鮮明にします。デフォルト値の「低」が多くの文書に適してします。印刷された文書の品質が低く、テキストが不明瞭な場合は「中」または「高」にあげます。
デフォルトは「低」です。

「読んde!!ココ」の傾き補正に関する問題点

「読んde!!ココ」はOCRソフトですが、スキャン画像の傾き補正機能だけを使用することもできます。
単ページはもちろんですが、左右見開きページの傾き補正もできるので大変重宝しています。
自動傾き補正の機能がなかなか強力なので、大量のデータ処理が必要な時など、OCRファクトリーを使ってフォルダ単位に一括でスキャン画像の傾き補正を行うことができます。
また、白黒、カラー共に傾き補正後の品質劣化が少ない点もメリットとして挙げられると思います。
難点としては、PDFの読み込み、書き出しに時間がかかることと、保存するPDFのファイルサイズが大きくなることです。
しかし、意外な問題点が発覚しました。
保存するPDFのファイルサイズが大きいことには気付いていましたが、XEROXやキャノン、シャープ等のスキャナで作成するPDFは独自の圧縮技術を用いているので、「読んde!!ココ」で保存する際に圧縮が解除されているのかな?…くらいにしか考えていませんでした。
「読んde!!ココ」でPDF保存を行う場合、PDFのオプションは選択することができません。
まさか、白黒モードがRGBモードのPDFに変わっているとは考えもしませんでした。
納品後にお客様から指摘を受けた時は、本当に背筋に悪寒が走りました。
次に、RGBモードのPDFを、品質を劣化させずに白黒モードへ戻すにはどうすれば良いのか?…という問題に突き当たりました。
なかなか良い方法が見つからず困っておりましたが、フォトショップを使えばどうにかできそうだ…ということが判りました。
手順としては、まずPDFをアクロバットで単ページに分割し、次にフォトショップでRGBをグレースケールに落とし、さらにモノクロ2階調へ落とします。
その時、種類は「50%を基準に2階調に分ける」を選択します。
これらをアクションに記録し、フォルダ単位にバッチ処理を走らせました。
上記の処理を行い、RGBモードのPDFを白黒モードへ一括変換しました。
品質は残念ながら少々劣化しましたが、幸い許容範囲内でしたので事なきを得ました。
元々は私の確認不足が原因ではありますが、「読んde!!ココ」のPDF保存にはこのような問題点があるのでご注意ください。