“定番”OCRソフト「e.Typist」シリーズの新バージョン。Windows Vistaに対応したほか、さらにブラッシュアップされた日本語認識エンジンを搭載し、より高精度・高速な認識を実現した。「e.Typist v.12.0 for Windows」は、画像データから文字を認識してテキスト化するOCR(光学文字読み取り)ソフト。主にスキャナとの連携で使用するが、既存の画像ファイルを開いたり、カードリーダ経由でデジカメ画像を読み込んで使用することもできる。標準対応する言語は、日本語・英語をはじめ、アジア・欧米の言語58ヵ国語。誤認識の可能性がある部分を自動検出する機能や、読み取ったテキストをMicrosoft Office 2007形式で出力する機能もある。充実したナビやヘルプを搭載し、はじめてでもわかりやすく使用できる。
メイン画面はメニューバー、ツールバーなどのほか、「操作ナビ」「画像ウィンドウ」「テキストウィンドウ」「画像リスト」から構成される。「操作ナビ」には、目的に応じて「段組の指定をするには?」といった質問形式の項目が並び、クリックすると必要なコマンドを実行するか、またはヘルプの該当項目を表示するという、目的志向が取り入れられたインタフェースとなっている。
「画像リスト」には、現在開かれている画像データがサムネイルまたはリスト形式で表示される。文字を認識するたびにスキャンを実行する必要はなく、あらかじめ複数の画像を連続でスキャンしておくことが可能だ(スキャンした画像はスキャナ001、スキャナ002というように通し番号付きで表示される)。
画像の読み込み後にそのまま文字認識を実行することもできるが、レイアウト解析を行えば、より精度の高い認識を行える。レイアウト解析は、スキャン画像の中でテキスト部分や表組みの部分、画像(イラスト)などを認識するもの。自動レイアウト解析で自動的に判別させられるほか、ユーザが手動で「認識枠」を設定して必要な部分だけ認識させたり、認識順序を指定したりすることもできる。
手動で認識させる場合は、あらかじめ「認識属性」を指定することが可能。
- 文字領域、図領域、表領域
- 日本語、英語、日欧混在、欧米言語、アジア言語などの言語
- 縦書き、横書きおよび一段組み、多段組み
- 改行の挿入方法(行ごと、ブロックごと、自然)
- 空白文字の出力の有無
- データの区切り
を指定できる。レイアウト解析ではこのほかにも、認識枠の取り消しや認識順の入れ替えも可能。表組みを正しく認識できなかった場合に罫線の指定をやり直す「セパレータ挿入」といった機能もある。さらに、読み取りデータそのものの精度を高める機能として、
- スキャン画像のゴミを取り除く「消しゴム」
- スキャン時の傾きを補正する「回転」
- デジカメ画像のゆがみを修整する「長方形補正」(パースペクティブ補正)や「樽型歪補正」
- 色合い、シャープネス、手ぶれ、ピンぼけなどの補正
なども用意されている。レイアウト解析が終了したら、文字認識を開始する。認識結果は元の画像(画像ウィンドウ)と並べて「テキストウィンドウ」に表示される。認識結果に対して、直接キー入力で編集することも可能。キャレット(挿入ポインタ)の位置に応じて、「画像ウィンドウ」の該当個所は黄色い反転状態で表示される。
「テキストウィンドウ」では解析辞書機能を使って、誤認識の可能性がある部分を自動検出させることもできる。解析したテキストは青字で、誤認識の可能性があると判断された文字は赤字でそれぞれ表示される。ユーザが編集を行うと黒字へ戻るため、修正を施した部分がわかりやすい。そのほか、認識した文字を元画像のテキストの脇へ添え字のように表示させることや、(元画像のレイアウトを維持しないで)テキストのべた書きで表示することもできるようになっている。
認識・編集が終わった文書は、ファイル保存できるほか、WordやExcelを起動して表示させたり、HTML/PDFファイルに保存して、WebブラウザやAdobe Readerで開くことも可能。Word/Excelへ転送する場合は、文書や表のレイアウトを保ったまま送る「レイアウト転送」か、文字のデータだけを送る「テキスト転送」かを選択できる。ファイル保存する場合には、テキストやUnicodeテキストのほかに、Word/Excel/一太郎/RTF/HTML/XHTML/PDF/CSV/PowerPointなどの形式を選べる。
画像ファイル(読み込んだ原稿)とテキスト(認識結果)のセットはひとつの作業ファイルとして保存しておける。そのほか、画像ファイルのみを保存する機能や印刷機能なども備えている。