一般的なOCR認識のための記述上の注意事項
数字を正しく記入する
  カンマ(,)と「数字の1」を区別できるように記入してください。(カンマは小さく、1は少し大きめにします)
  カンマが大きいと、「数字の1」と誤認される可能性があります。
文字間隔を確保する
  文字と文字の間が狭いと、2文字と認識してしまう場合があります。
  逆に、1文字の中で部首が離れ過ぎていると、1文字を2文字と認識してしまうこともあります。
できる限り罫線に載せないこと
  出納帳や、ノートのように、罫線がある場合に、通常の書き方をすると、下線に、若干、文字を載せる形で、記述されます。
  しかし、この記述方法は、OCR認識の面では不利になります。
  OCRは、文字と接触した下線を文字の一部と見なす可能性があるためです。
  なるべく、下線などの罫線に文字を接触させないで、記述する必要があります。
線の太さや色にムラのない筆記具を使用すること
  筆記具(ボールペン、シャーペン、サインペンなど)の選択もOCR認識精度に影響を与えます。
  下図の「正しいペン」は、線の太さや色が均一となっていますが、「悪いペン」の例では、線の太さや色に、多少のムラがあります。
  OCR認識は画像処理を行うため、わずかなムラであっても、認識精度に微妙な影響を与えてしまうことがあります。
  なるべく、均一な線を描けるような筆記具を選択してください。
 
正しいペン
悪いペン
 
  「税理士いらず」ご利用上の注意
スキャンニング時の設定
  スキャナで、通帳や出納帳をスキャンニングする際には、一般的には、ファイルの種類、イメージタイプ、解像度(DPI)などの「設定パラメータ」を
  指定する必要があります。
  これらのパラメータは、以下のように指定します。
  1)ファイルの種類
   BMP、JPG、TIF、GIF、PCX、PNGのいずれかを指定します。(指定できる種類は、スキャナによって、異なります)
   一般的に、BMP、JPG、TIFは、どのスキャナでも、指定可能です。
  2)イメージタイプ
   カラー、グレー、白黒のいずれかを指定できますが、カラーでのスキャンニングをお勧めします。
   グレー、白黒でも、認識はしますが、認識率に影響する場合があります。
   特に、出納帳の認識では、記述色と罫線の色を区別して、罫線抽出の手がかりとしているため、必ず、カラーを指定してください。
  3)解像度(DPI)
   目安として、
    通帳の場合 :400DPI以上(500DPI以上を推奨)
    出納帳の場合:300DPI程度
   となります。
   (通帳は印刷体、出納帳は手書きであることを前提としています)
   出納帳の場合、解像度を高く設定し過ぎると、かえって、認識精度が悪くなる場合がありますので、ご注意ください。
   以上をまとめると、通常は、
    ファイルの種類: BMP, GIF, JPG, PNG, TIF, PCX
    イメージタイプ : カラー
    解像度     : 300DPI(出納帳の場合)、400DPI(通帳の場合)
   と設定することをお勧めします。
黒白画像の確認
  画像を取り込んだら、サブメニューの「黒白画像に」ボタンを押して、白黒状態での画像を確認してください。
  「税理士いらず」は、出納帳の罫線抽出等の処理のため、画像のカラー情報を使っていますが、本来のOCR認識処理自体は、
  白黒画像の濃淡情報を使って処理します。
  カラー画像やグレー画像の状態では、きれいな画像に見えても、白黒画像にすると、判別できないほど暗くなっていたり、
  明るくなっていたりすることがあります。
  これは、OCR認識というもの自体が、元の画像を白と黒の点の集まりとして処理するために、本格的な認識処理を行う前に、
  内部的な「しきい値」を使って、白、黒を明確に分けておく必要があるためです。
  「税理士いらず」は、画像取込の際に、内部的なパラメータを使って、自動的に適切な「しきい値」で、「白」と「黒」の境界を切り分けますが、
  人間の目で見ると、調整が不充分な場合もありますので、確認してみる必要があります。
  「明るさ増加」、「明るさ減少」ボタンを使って、人間の目で見ても、明確に判別できる程度まで、明るさを調整してください。
  この「明るさ調整」は、OCRの認識精度に、大きく影響しますので、もし、満足できない認識結果であれば、再度、明るさの調整をして
  試してください。(ただし、100%の認識精度を確保することは、できません)
  明るさを調整したら、「グレー画像に」ボタンをクリックして、元の見やすいカラー画像に戻してもいいし、そのままでも、認識はできます。
傾き補正
  傾きを正しく補正することは、とても重要なことです。
  「税理士いらず」は、画像取込の際に、「自動傾き補正」を行いますが、人間の目で見ると、不完全なこともあります。
  サブメニューの「傾き調節」ボタンを使用して、認識前に適切な傾きに補正してください。
縦方向、横方向の罫線の確認
  「税理士いらず」は、認識枠(「表」の領域)が指定されたときに、「罫線自動抽出機能」により、通帳や出納帳を「表として」完成させます。
  しかし、この「表の認識処理」は、元画像の濃淡の程度や鮮明度に、大きく影響されます。
  自動抽出された罫線を確認の上、不要な罫線は削除し、必要な罫線は追加する必要があります。
 
   
 
  「手書き出納帳」記述上のご注意
記述文字は、楷書できちんと書く
  「文字のクセ」は、人それぞれ異なりますが、楷書で、1文字ずつ離して、きちんと記述する必要があります。
  下図のような記述は、文字間隔が離れてなかったり、つづけ字で記述しているので、悪い記述例となります。
 
1行中の複数行の記述は不可
  下図のように、1行の中に複数行の文字列を記述することはできません。
 
簡略化された記述は不可
  下図のように、簡略化された形で文字を記述すると、その文字は認識できません。
  辞書には、このような簡略形の文字が登録されていないためです。
  下図の例では、「間」という文字を簡略化して記述しているため、認識ができません。
 
2つの文字を重ねてはならない
  摘要欄に文字を記述するときには、下図のように、文字と文字が重ならないようにしてください。
  OCR認識では、認識前に、1つ1つの文字が占める領域を長方形の領域として認知するので、
  下図のような場合には、「ジ」と「ェ」の文字領域が重なってしまい、正しい認識ができなくなります。
 
Copyright (C) 2011 I Software Inc. All rights reserved.