スキャナから読み取った画像データをPDF化するツールと、PDFデータをWord/Excelで利用できるようにするコンバータがセットになったソフト。「速攻! PDF to Data 2 & from Paper 2 Pro」は、既存のPDFを読み取ってWord/Excelの書類形式で保存する「PDF to Data 2」と、OCRエンジンを利用してスキャナで読み取ったデータをPDF化する「PDF from Paper 2」の二つをセットにした、統合型PDFユーティリティソフト。
「PDF to Data 2」は、PDFデータをWord/Excel/テキストの各形式に変換できるソフト。PDFの各ページをBMP/JPEGの画像として出力する機能もある。変換元のPDFがWordやExcelから出力されたものである必要はなく、どんなPDFであっても処理できる。例えば、Wordの書類をもとにしたPDFをExcelの形式で出力し直すことも可能だ。
複数のファイルをあらかじめ指定しておき、これらを一度に変換する「連続ファイル処理」が行える。もちろん変換フォーマットやOCRで利用する言語は、ファイルごとに指定できる。「転送」指定により、変換後のデータをファイルに保存可能だ。
PDFに含まれている文字要素や画像などは、できる限り元のレイアウトやデザインを保ったままで変換される。文字色などの再現はもちろん、写真画像を含むPDFであれば画像が貼り付けられた状態で出力される。PDF内で「テキスト」として扱われている文字情報は、OCRを介さずに直接変換されるため“完全な状態”で出力ファイルに取りこまれる。
文字列が画像データとして含まれている場合は、内蔵のOCRエンジンにより文字を自動で認識する(元画像の品質により認識精度は異なる)。OCRの精度が高くなるよう、画像フィルタを適用したり、傾きを自動補正したりといった機能も備えている。OCRでは日本語のほか、ヨーロッパの国やロシア、韓国、中国語など10ヵ国の言語に対応する。言語をプロパティから選択することで、各言語に最適化された認識精度が得られる。
PDFだけでなく、BMP/JPEG/TIFFといった画像を入力データとして処理することも可能なので、いわゆる「OCRソフト」として使うことも可能だ。「ここだけOCR」機能により、Windows画面の一部をキャプチャする感覚でOCR認識させることもできる。認識された結果の文字列は、クリップボードなどに自動で転送される。
「PDF from Paper 2」は、イメージスキャナから取り込んだ画像を認識してPDF化する、PDF作成ソフト。スキャナ入力のほか、BMP/JPEG/TIFFといった既存の画像をソースにすることもできる。ファイル読み込みでは、最大128ファイルまでの連続処理に対応する。
TWAIN対応のイメージスキャナであれば「PDF from Paper 2」独自の認識ウィンドウからスキャン設定を直接変更できる。TIFFの読み込みでは「マルチページTIFF」にも対応するため、オフィスの複合機などで複数ページを一気に読みこんだイメージファイルからPDFを作成することも可能だ。
取り込んだ内容は、BMP形式の画像によって構成されたPDFとして出力される。PDFの「透明テキスト」機能により、OCRの文字列の結果を透明テキストデータとしてPDFに重ね合わせられるため、テキスト検索を利用できるPDFとして扱える。