高精度のノイズ除去機能を搭載した日本語/英語対応のOCRソフト。高い認識率で文字を読み取ることができる。「読んde!!ココ」は、画像などのデータから文字を読み取ることができる“定番”OCRソフト。使いやすさと認識精度の高さで定評がある。新バージョンの13では、日本語・英語あわせて約24万6千語の言語解析辞書と新アルゴリズムを搭載。従来バージョンから一層の認識率の向上を果たした。
読み取りでは、読み取ったデータから文字以外のノイズを取り除く「ノイズ認識・除去」機能が強化された。新アルゴリズムの搭載により、ノイズの除去効率が向上。文字情報を残しつつ、ノイズのみを高い精度で除去できる。これにより、ざらついた紙や、下地に色の付いた紙での認識能力もアップした。(赤ペンなどで記入された)色付きの手書きメモ部分を自動で取り除くこともできる。
文字が含まれる領域を検索する「領域抽出モジュール」も改善された。かすれた罫線がある領域を的確に検出し、帳票や囲み記事など、さまざまなレイアウトの紙面を読み取ることができる。
複数ページを読み取る際に無地ページが含まれている場合は、そのまま残すか、自動的に消去するかも指定できる。両面原稿と片面原稿が混在するときや、書籍を読み取るときなど、何も書かれていないページを取り除くことで、無駄なデータを作ることなくデータを保存できる。
読み取りなどの機能は、「読んde!!ココ」のランチャにあたる「スマートナビ」から実行できる。
- ワンタッチ認識:出力形式を指定するだけで自動変換
- 自動で認識:手順をカスタマイズした上で自動変換
- ステップで認識:一つひとつの処理を手動で行う
- Wordなどから認識:ほかのアプリケーションへのアドインを設定
- 原稿をコピー:スキャナとプリンタを用いて紙原稿をコピー
などをボタンひとつで選択・実行することが可能だ。対応スキャナの多さや、読み取りの柔軟性は従来バージョンから変わらない。スキャナはTWAIN対応機種のほとんどをサポートする。専用のインタフェース画面が用意され、スキャナの機種にかかわらず、統一した操作感でスキャンを行える。読み取り対象には、画像ファイルはもちろん、PDFファイル、クリップボードにあるデータ、表示画面など、さまざまなデータを指定できる。
OCR認識の結果は、テキスト/RTF、Excel、PowerPoint、一太郎の各形式と、PDF/HTML/WRI/CSV/SYLK形式でファイルに出力できる。PDFでは「イメージのみのPDF」「テキスト情報を埋め込んだ透明テキスト付きPDF」を指定することが可能。あらかじめ指定した領域の文字列だけをCSVで保存することも可能で、必要な情報だけを取り出して効率的にデータベース化できる。
ユーザがカスタマイズした読み取り手順で連続読み取りを行う「OCRファクトリー」機能では、保存時の指定方法が強化された。あらかじめ指定した連番でファイル名を付けられるのはもちろん、既存の連番に続く番号を付けたり、OCR処理日時を付けたりもできる。従来同様、「認識元の画像ファイル名を流用して保存」「認識結果のファイル名で保存」を選択することも可能だ。
そのほか、エプソンのオフィリオ シナジーウェア「Document Storage」「Document Browser」との連携機能も追加された。オフィリオ シナジーウェアではドキュメントファイルの管理を一元的に行うことが可能で、OCR認識で作成したファイルを直接「Document Storage」のファイルボックスに転送・登録できるようになる。
登録時に、元原稿に含まれる特定領域の認識結果を“分類情報”として付加することも可能。例えば、元原稿に印字されたコード名などを分類情報として「Document Storage」に渡せるため、「Document Storage」側で自動的に分類・保存が行える。スキャナから読み取り、ドキュメントを整理するまでのワークフローを一本化することができ、ドキュメント整理の効率化に役立つ。