Reconnaître le Texte dans les Documents Numérisés

Reconnaissance Optique de Caractères (OCR)

Qu’est ce que l’OCR ?

OCR signifie « Optical Character Recognition » (reconnaissance optique de caractères). Cette fonction permet de reconnaître des textes dans des documents rastérisés (par exemple, des images ou des textes numérisés).

Le processus OCR de SEAL Systems fonctionne pour les données matricielles et vectorielles et peut être intégré dans des processus automatisés. Les techniques d’OCR peuvent rendre lisibles par des traitements de textes des caractères qui ne sont disponibles que sous forme de motifs pixelisés. Ils sont alors automatiquement consultables. De grandes quantités de fichiers sont par ailleurs pré-scannées par les moteurs d’indexation, de sorte que les recherches sur l’ensemble des fichiers soient très rapide.

Qui a Besoin de l’OCR ?

Les cas d’utilisation des fonctions de reconnaissance de texte OCR sont multiples. Par exemple, il peut être utile d’utiliser l’OCR pour l’archivage numérique d’anciens documents.

Pour l’archivage, vous avez utilisé pendant de nombreuses années le format TIFF, autrefois très répandu ? Certaines informations ont été perdues lors de la conversion au format purement matriciel TIFF. Nous pouvons cependant récupérer les textes pour vous !

Vos clients vous communiquent des documents scannés pour que ceux-ci soient produits. Il s’agit d’images matricielles à partir desquelles nous pouvons identifier les textes et les stocker sous forme de textes consultables dans un format PDF.

Questions Fréquemment Posees

Nous Aimerions Intégrer l'OCR dans Notre Traitement des Documents. À quel Moment cela est-il Possible ?

Nous vous recommandons d’inclure l’OCR dans vos processus aux étapes suivantes :

  • Lors de la mise à jour des documents
  • Lors de la conversion des fichiers
  • Avant l’enregistrement dans la GED
  • Lors de la conversion d’anciens fichiers en PDF, PDF/A

Cependant, tous les fichiers ne sont pas traités par l’OCR. Le système reconnaît automatiquement s’il est utile de démarrer le processus d’OCR. Ou encore le processus d’OCR n’est appelé que pour les fichiers numérisés.

Nous Avons des Fichiers PDF avec du Texte Visible, mais le Texte ne peut pas être Recherché. Que peut-on Faire ?

Il existe différentes raisons pour lesquelles une recherche de texte ne peut pas être réalisée. Les fichiers PDF créés par numérisation sont initialement constitués uniquement de pixels. Une personne peut lire les textes, mais les ordinateurs ne peuvent pas les interpréter. Les scanners sont souvent déjà équipés de fonctions OCR intégrées. Cependant, celles-ci peuvent s’avérer inefficaces. Les systèmes de CAO représentent souvent l’affichage des textes à l’écran sous la forme de vecteurs. Cela se produit lorsque le système de CAO ne fonctionne pas avec des polices standard. Les polices spéciales pour l’affichage à l’écran ne sont peut-être pas disponibles. Les image dans les formats PDF peuvent elles-mêmes contenir du texte que vous souhaiteriez également identifier et reconnaître.

Quels Sont les Avantages des Fichiers avec du Texte Consultable ?

Les informations peuvent être trouvées plus rapidement si la recherche ne s’effectue pas uniquement par mots-clés dans la GED, mais également directement dans les fichiers. Pour cela, il faut toutefois que le texte visible soit disponible pour une recherche par les logiciels. Pour que l’échange de données entre partenaires soit efficace, il est nécessaire que les informations ne sont pas uniquement gérées dans la GED. La gestion et la recherche des fichiers peuvent être considérablement optimisées si les mots-clés pertinents sont extraits directement des fichiers.

Nous Aimerions Convertir Nos Anciennes Données TIFF en PDF/A. Est-ce Possible ?

Ici aussi, l’OCR est important ! Le PDF/A remplace de plus en plus le format TIFF comme format d’archivage. Les fichiers TIFF et les originaux numérisés peuvent être facilement convertis au format PDF. Sans traitement OCR supplémentaire, cette conversion n’apporte toutefois aucune valeur ajoutée. Le PDF résultant ne contient aucune donnée utile autre qu’une image. Seul l’enrichissement avec des éléments de texte offre un avantage supplémentaire.

Vous êtes intéressé ?

Demandez plus d'informations sans obligation !

 

Conversion des Anciennes Données en PDF/A

Les processus d’OCR sont particulièrement utiles pour l’archivage de documents et de fichiers. Cependant, nous n’aidons pas seulement nos clients à rendre lisibles les formats numérisés, nous sommes également en mesure de les convertir dans le format de fichier adapté. Le format PDF/A est particulièrement adapté à l’archivage sur le long terme. En savoir plus sur les avantages du PDF/A :