UnicodeDecodeError, byte de continuação inválido

Question

Mais

Question

UnicodeDecodeError, byte de continuação inválido

Por que o item abaixo está falhando? e por que ele é bem-sucedido com "latin-1" codec?

o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving
v = o.decode("utf-8")

resultados em:

 Traceback (most recent call last):  
 File "<stdin>", line 1, in <module>  
 File "C:\Python27\lib\encodings\utf_8.py",
 line 16, in decode
     return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError:
 'utf8' codec can't decode byte 0xe9 in position 10: invalid continuation byte

unicode

decode

Solution / Answer

neurino

5º abril 2011 в 1:28

Mais

Porque UTF-8 é multibyte e não há nenhum char correspondente à sua combinação de `\xe9' mais o espaço seguinte.

Por que deve ter sucesso em ambos utf-8 e latin-1?

Aqui como a mesma frase deve estar em utf-8:

>>> o.decode('latin-1').encode("utf-8")
'a test of \xc3\xa9 char'

42

0

Comunidades relacionadas 3

Pt-BR Data Science & Python

5 045 utilizadores

Abrir telegram

Python Coding Brazil

308 utilizadores

Programação Python. Python Programming. ***************************** ➸ Pentest Brazil Group (pt_BR) http://t.me/pentestbrazilgroup ➸ Pentest Brazil Channel (pt_BR) http://t.me/pentestbrazilchannel

Abrir telegram

Python Brasil

198 utilizadores

Bem vindos a comunidade do python Brasil! oficial do Telegram! 13/05/20

Abrir telegram

Adicionar pergunta

Categorias

Todos

Tecnologia

Cultura / Recreação

Vida / Artes

Ciência

Profissional

Negócios

Utilizadores

Todos

Novo

Popular

1

Ксения Комарова

Registrado há 1 mês

2

Артур «Апер»

Registrado há 2 meses

3

Viktor Malyutin

Registrado há 2 meses

4

Viktor Malyutin

Registrado há 2 meses

5

Syahputra Zhedenk

Registrado há 3 meses

Tem uma pergunta? Adicione-a no sítio e obtenha uma resposta instantânea

pt.kzen.dev

Josh Lee · Accepted Answer · 2011-04-05T13:29:13+00:00

Em binário, 0xE9 parece 1110 1001. Se você ler sobre UTF-8 na Wikipedia, você verá que tal byte deve ser seguido por dois do formulário 10xx xxxx. Então, por exemplo:

>>> b'\xe9\x80\x80'.decode('utf-8')
u'\u9000'

Mas essa é apenas a causa mecânica da excepção. Neste caso, você tem uma corda que é quase certamente codificada no latim 1. Você pode ver como UTF-8 e latim 1 parecem diferentes:

>>> u'\xe9'.encode('utf-8')
b'\xc3\xa9'
>>> u'\xe9'.encode('latin-1')
b'\xe9'

(Nota, I'm usando uma mistura de representação Python 2 e 3 aqui. A entrada é válida em qualquer versão do Python, mas é improvável que o seu intérprete Python mostre tanto strings unicode como byte desta forma).