Vous êtes ici

Reconnaissance OCR sur Linux (ici Ubuntu) avec Tesseract et Leptonica

Nous allons voir comment mettre en place un systéme de reconnaissance OCR opensource sur Ubuntu ( ici la version 12.04 ) avec les outils Tesseract et Leptonica. 

Prérequis :

1) Dans un premier temps, nous allons préparer notre machine Ubuntu, pour cela, il va nous falloir installer quelques paquets :

  • imagemagick qui va nous permettre de convertir nos fichiers PDF en fichier tiff par exemple : sudo apt-get install imagemagick
  • Les librairies de format d'images : sudo apt-get install libpng-dev libjpeg-dev libtiff4-dev
  • Le nécessaires à la compilation des sources : sudo apt-get install gcc g++ automake

2) Nous allons installer Leptonica 

  • Décompression de l'archive : sudo tar -zxvf leptonica-***
  • On se place dans le répertoire de leptonica puis nous éxècutons : sudo ./configure && make
  • Il ne reste plus qu'à procéder à l'installation : sudo make install
  • Et enfin, il nous faut actualiser les liens dynamiques, pour cela : sudo ldconfig

3) Nous pouvons maintenant nous lancer dans l'installation de Tesseract 

  • Décompression de l'archive : sudo tar -zxvf tesseract***
  • On se place dans le répertoire de leptonica puis nous éxecutons : sudo ./configure && make
  • Il ne reste plus qu'à procéder à l'installation : sudo make install

4) Tesseract est installé, cependant, il y a de grande chance pour que les données de langages ne soit pas installées

  • Telechargez les langues qui vous interesse, ici anglais et français (Télecharger anglais ici, et, français ici)  :
  • Décompressez les fichiers : sudo tar -zxvf eng.traineddata.tar.gz
  • Copiez les fichier de langues dans le répertoire de données de tesseract : sudo cp eng.traineddata  /usr/local/share/tessdata/

5) Maintenant que tout est installé, nous allons voir comment utiliser Tesseract 

  • Si vous utilisez un fichier PDF, il faut le convertir en fichier image ( ici TIFF ) : convert -density 300 votrefichier.pdf -depth 8 votrefichier.tiff
  • Vous pouvez maintenant le convertir en fichier texte grâce à Tesseract en spécifiant la langue pour faciliter le travail : tesseract votrefichier.tiff votrefichier.txt -l fra
  • C'est terminé, vous devriez voir dans votre répertoire un fichier texte qui est la conversion de votre fichier image à l'aide de l'OCR
Tags: 

www.le-gas.fr : Le guide de l'admin Systeme