Pourquoi 300 dpi est-il un standard pour la reconnaissance optique de caractères (OCR) ?

Vendredi, janvier 24, 2014

Numériser à 300 dpi (points par pouce) n’est pas officiellement le standard pour la reconnaissance optique de caractères (OCR, Optical Character Recognition), mais c’est considéré comme étant l’étalon or.

Certains pensent que l’on peut numériser avec une résolution Inférieure, par exemple 200 dpi, puis utiliser un logiciel pour augmenter la résolution par interpolation. Cependant, il faut se rappeler que l’interpolation ne fournit pas réellement un avantage significatif pour la reconnaissance optique de caractères (OCR). Elle permet juste, en général, de faire une image plus grande en ajoutant des pixels supplémentaires à ceux numérisés ou en les étirant, mais ces approches conduisent, toujours et seulement, à une approximation. Votre image perdra toujours en clarté et en qualité. Vous aurez mieux à faire de numériser, tout de suite, votre document à 300 dpi. La plupart des grandes sociétés qui fournissent des solutions de reconnaissance optique de caractères (OCR) et de traitement automatisé de formulaires recommandent la numérisation à une résolution minimale de 300 points par pouce pour une extraction efficace des données. De fait, la plupart sont réglées, par défaut, sur 300 dpi. En d’autres termes, pour chaque pouce carré de papier (1 pouce carré = 6,5 cm²), le scanner capture 300 points horizontalement et 300 points verticalement ou 90,000 points au total (300 X 300 = 90,000 points par 6,5 cm²). En utilisant un réglage de 200 dpi au lieu de 300 dpi, on ne verra que 40,000 points par pouce carré au lieu de 90,000. Après réflexion, c’est une différence importante.

Donc, pour répondre simplement à cette question, numériser en haute résolution équivaut à une précision améliorée de la reconnaissance optique de caractères (OCR) automatisée. Avec la technologie OCR, c’est l’ordinateur qui prend une décision au sujet d’un caractère numérisé, et plus de points par pouce lui permettent un niveau plus élevé de précision car il a plus d’informations pour prendre la bonne décision relative à la reconnaissance du caractère.

Voici un exemple de problème que peut provoquer un nombre insuffisant de points par pouce. Le deuxième caractère est-il un B ou un 8 ?

4272729558_2d6c544408_o

Classé sous : ,