Python3 – Resolvendo problema de charset inválido em Expressão Regular (Regex)

image_pdfimage_print

Caso tenha um erro parecido com ‘ascii’ codec can’t decode byte in position : ordinal not in range(128), após obter algum dado via função ‘open’ ou algum outro meio de entrada/saída (i/o input/output) e utilizar o módulo re de expressão regular em python, verifique o charset original do dado.

Caso tenha utilizado o comando open, atente-se para o parâmetro de definição do charset. No caso, bastaria utilizar encoding=’UTF-8′, como no exemplo abaixo:

arquivo = open(ARQUIVO,MODO_DE_ACESSO,encoding='UTF-8')
conteudo_arquivo = padrao_regex.sub( '', arquiv.read() )
Gostou? Tire um minutinho e dê sua contribuição para Drall Dev Community no Patreon!