Como transformar um PDF somente imagem em um PDF imagem + texto no Linux

Para fazermos essa conversão, usaremos um programa chamado pdfocr, de autoria do programador Geza Kovacs. A primeira coisa a se fazer é baixar o programa. Para isso, vá até a página do mesmo no Github:

https://github.com/gkovacs/pdfocr

Baixe o programa na página acima e descompacte o na pasta desejada no seu Linux (caso você opte por baixar o .zip que conterá todos os arquivos). São 4 arquivos no total: COPYRIGHT, README, pdfocr.1 e pdfocr.rb.

Como esse programa foi feito em Ruby, será necessário ter o Ruby instalado no seu Linux. Além disso, o programa (que na verdade é um script) utiliza. Para rodar o programa, faremos da seguinte forma (considerando que você está na pasta onde o programa foi instalado):

 ruby pdfocr.rb -i <arquivo_de_entrada.pdf> -o <arquivo_de_saida.pdf>

Em que arquivo_de_entrada.pdf é o PDF original que você deseja converter em PDF com texto e arquivo_de_saida.pdf será o PDF gerado após a conversão. O programa tem várias opções de entrada. Não vamos detalhar aqui as opções, mas caso queira conhecê-las, basta abrir o código do script pdfocr.rb e verificar.

Uma opção interessante de se usar é a opção –lang para se especificar a linguagem que o OCR irá utilizar. Nesse caso, a linguagem especificada deverá estar instalada no seu Linux. Para instalar uma linguagem, basta instalar um dos pacotes tesseract-ocr-* disponíveis. Exemplo: para instalar a linguagem português, basta instalar o pacote tesseract-ocr-por (no Debian, basta um apt-get install tesseract-ocr-por). Dessa forma, utilizaríamos a opção –lang especificando a língua portuguesa da seguinte maneira:

 ruby pdfocr.rb -i <arquivo_de_entrada.pdf> -o <arquivo_de_saida.pdf> --lang por

Vale lembrar, que além do Ruby, outros programas deverão ser instalados (caso já não estejam) antes de se usar o pdfocr, como por exemplo o tesseract, o pdftk, o hocr2pdf (que faz parte do pacote exactimage), dentre outros. Caso você tente rodar o pdfocr sem tes esses programas previamente instalados, ele irá alertá-lo.

Pronto! Agora você já consegue gerar através do Linux arquivos PDF que contenham imagem + texto (searchable PDF).

Gostou? Tire um minutinho e dê sua contribuição para Drall Dev Community no Patreon!

Artigos relacionados: