UnicodeDecodeError, invalid continuarea octet

Question

Mai mult

Question

UnicodeDecodeError, invalid continuarea octet

De ce este cel mai jos element nu? și de ce nu ar reuși cu "latină-1" codec?

o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving
v = o.decode("utf-8")

rezultate în:

 Traceback (most recent call last):  
 File "<stdin>", line 1, in <module>  
 File "C:\Python27\lib\encodings\utf_8.py",
 line 16, in decode
     return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError:
 'utf8' codec can't decode byte 0xe9 in position 10: invalid continuation byte

bgporter

Întrebarea editată 5 aprilie 2011 в 1:27

Programare

python

unicode

decode

Solution / Answer

Mazen Aly

18 iulie 2015 в 3:33

Mai mult

Am avut aceeasi eroare când am încercat să deschid un fișier csv de panda read_csv metodă.

Soluția a fost de a schimba codare a 'latină-1':

pd.read_csv('ml-100k/u.item', sep='|', names=m_cols , encoding='latin-1')

Brad Larson

Răspuns editat 8 octombrie 2015 в 6:13

191

0

neurino

5 aprilie 2011 в 1:28

Mai mult

Pentru UTF-8 este multibyte și nu există nici un char corespunde combinația de \xe9 plus următoarele spațiu.

De ce ar trebui să reușească în ambele utf-8 și latin-1?

Aici cum aceeași propoziție ar trebui să fie în utf-8:

>>> o.decode('latin-1').encode("utf-8")
'a test of \xc3\xa9 char'

42

0

Comunități asemănătoare 1

Python România

121 utilizatori

Comunitatea pasionaților de Python din România.

Deschide telegram

Adăugati o întrebare

Categorii

Toate

Tehnologii

Cultură

Viață / Artă

Stiință

Profesii

Afaceri

Utilizatori

Toate

Nou

Populare

1

Ксения Комарова

Înregistrat 1 lună în urmă

2

Артур «Апер»

Înregistrat 2 luni în urmă

3

Viktor Malyutin

Înregistrat 2 luni în urmă

4

Viktor Malyutin

Înregistrat 2 luni în urmă

5

Syahputra Zhedenk

Înregistrat 3 luni în urmă

Aveți o întrebare? Adăugați-o pe site-ul nostru și primiți răspuns instant

ro.kzen.dev

Josh Lee · Accepted Answer · 2011-04-05T13:29:13+00:00

În binar, 0xE9 se pare ca 1110 1001. Dacă ați citit despre UTF-8 pe Wikipedia, veți vedea că astfel de un octet trebuie să fie urmată de două de formă 10xx xxxx. Astfel, de exemplu:

>>> b'\xe9\x80\x80'.decode('utf-8')
u'\u9000'

Dar asta e doar cauze mecanice de excepție. În acest caz, aveți un șir de caractere care este aproape sigur codificat în limba latină 1. Puteți vedea cum UTF-8 și latină 1 arata diferit:

>>> u'\xe9'.encode('utf-8')
b'\xc3\xa9'
>>> u'\xe9'.encode('latin-1')
b'\xe9'

(Notă, am'm, folosind un amestec de Python 2 și 3 reprezentare aici. Intrarea este valabil în orice versiune de Python, dar interpretorul Python este puțin probabil să arate de fapt, atât unicode și siruri de caractere octet în acest fel.)