Etiquetas

555 74HC04 74HC14 74HC165 74LS04 acentos ADC10 Amstrad archivo arduino aristóteles armbian array ass at backup base64 bash Basho bc beethoven Biblia blog bucle c c++ c++11 c++17 C005 cadena Carmina Burana casting CD4017 CD4040 Cine clases Colores connect Consolación a Helvia Consolación a Marcia Consolación a Polibio constante corsair CPC Cristal 32Khz css cursor mouse cut daemon date dead keys Debian directorio disco duro DS32kHz electricidad Electrónica ensamblador entryList epicureismo Estadística estoicismo felicidad ffmpeg filePath filosofia Filosofía firefox flac for fstab funcion Gargantúa gastronomía gilgamesh Ginott gmp gpt grep gtts Hobbes hotkeys html imagemagick inline Javascript kde kernel modulos latex ldr lib-notify Linux Literatura ludoteca macro mapa de bits Matroska mega Microsoft Word Milan Kundera mkvextract mkvinfo mount mp3 mplayer MSP430 msp430F5529 MSP432 Multimedia Musica oop orange_pi pato PIR PL9823 Platón poesía POO en C++ pulseaudio puntero PWM pygame pyqt python QAction qApp QApplication QByteArray QDialog Qdir QFile QFileDialog QImage qlabel QList QListWidget QMessagebox QMouseEvent qpainter QPalette QPixmap QProcess QRegularExpression QRegularExpressionMatchIterator QString QStringList Qt qt5 QToolbar quijote QVector qwidget R Rabelais ratón relé Resonador cerámico samba San Agustín screen Séneca signal slot smart smartctl sox srt static const stdarg.h subtítulos Symbian tar teléfonos móviles temperatura temperatura cpu Temporizador tesseract Timer timestamp Trigonometría tts tutorial uid unicode user USI va_arg va_end va_list va_start velocidad ventilador Voltaire wallpaper xboxdrv xinput xrandr Z80 zip

miércoles, marzo 16, 2011

OCR de un PDF escaneado a doble página desde Linux

Un PDF con las páginas de un libro escaneadas se puede leer con un programa de OCR. A continuación una receta para hacerlo desde linea de comandos con Linux.

El PDF tiene este aspecto:
Es necesario dividir la imagen en dos y eliminar el ruido de los bordes que interfiere con el OCR.


Herramientas utilizadas:
Imagemagick
Tesseract
Python

1. Convertir el PDF a imágenes JPG.
import os
cmd = "convert -density 200 %s[%i] -trim %s"
pdfFile = "document.pdf"
jpgFile = "tmppage%i.jpg"
pages = 161
for n in range (0,pages):
    print "Extrayendo " + jpgFile % n
    os.system (cmd % (pdfFile, n, jpgFile % n))

2. Dividir verticalmente las imágenes.

inFile = "tmppage%i.jpg"
outFile = "tmp2page%i.jpg"
pages = 161
cmd = "convert %s -crop 50%%x100%% -trim %s"

for n in range(0,pages):
  print "Dividiendo " + inFile %n
  os.system (cmd % (inFile % n , outFile % n ))

3. Recortar los bordes

inFile = "tmp2page%i-%i.jpg"
outFile = "page%i.jpg"
pages = 161

mainContador = 0
pageFlag = 0
cmd = "convert %s -gravity Center -crop 90%%x99%% +repage -trim %s"
for n in range(0,pages):
  for i in range(2):
    fIn = inFile %(n,pageFlag)
    fOut = outFile % mainContador
 
    print "Recortando %s hacia %s" % (fIn,fOut)
    os.system (cmd %(fIn,fOut))
    mainContador += 1
    pageFlag+=1
    if pageFlag==2:
      pageFlag = 0

4. Convertir las imagenes a TIFF
Tesseract utiliza imagenes TIFF como entrada. Aquí hacemos la conversión. ¿Por qué no usar TIFF desde el principio? Por el tamaño de los archivos.
pdfFile = "page%i.jpg"
tifFile = "tif/page%i.tif"
pages = 322
cmd = "convert %s %s"

for n in range(pages):
  f1 = pdfFile % n
  f2 = tifFile % n
  print "convirtiendo " + f1
 
  os.system (cmd %(f1,f2))

5. OCR
tifFile = "page%i.tif"
txtFile = "ocr/page%i"    #No necesita extension .txt
pages = 322
cmd = "tesseract %s %s"

for n in range(pages):
  f1 = tifFile % n
  f2 = txtFile % n
  print "convirtiendo " + f1
 
  os.system (cmd %(f1,f2))