UnicodeDecodeError, άκυρο byte συνέχειας

Question

Περισσότερα

Ερώτηση

UnicodeDecodeError, άκυρο byte συνέχειας

Γιατί το παρακάτω στοιχείο αποτυγχάνει; και γιατί πετυχαίνει με το "latin-1" codec;

o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving
v = o.decode("utf-8")

οδηγεί σε:

 Traceback (most recent call last):  
 File "<stdin>", line 1, in <module>  
 File "C:\Python27\lib\encodings\utf_8.py",
 line 16, in decode
     return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError:
 'utf8' codec can't decode byte 0xe9 in position 10: invalid continuation byte

bgporter

Επεξεργασμένη ερώτηση Κάνε Απρίλιος 2011 в 1:27

Προγραμματισμός

python

unicode

decode

Λύση / Απάντηση

neurino

Κάνε Απρίλιος 2011 в 1:28

Περισσότερα

Επειδή το UTF-8 είναι multibyte και δεν υπάρχει χαρακτήρας που να αντιστοιχεί στον συνδυασμό του \xe9 και του επόμενου διαστήματος.

Γιατί θα πρέπει να πετύχει τόσο σε και utf-8 όσο και σε latin-1;

Εδώ πώς θα έπρεπε να είναι η ίδια πρόταση σε utf-8:

>>> o.decode('latin-1').encode("utf-8")
'a test of \xc3\xa9 char'

42

0

Προσθήκη ερώτησης

Κατηγορίες

Όλα

Τεχνολογία

Πολιτισμός / Αναψυχή

Ζωή / Τέχνες

Επιστήμη

Επαγγελματικό

Επιχείρηση

Χρήστες

Όλα

Νέα

Δημοφιλές

1

Ксения Комарова

Εγγεγραμμένη πριν 1 μήνας

2

Артур «Апер»

Εγγεγραμμένη πριν 2 μήνες

3

Viktor Malyutin

Εγγεγραμμένη πριν 2 μήνες

4

Viktor Malyutin

Εγγεγραμμένη πριν 2 μήνες

5

Syahputra Zhedenk

Εγγεγραμμένη πριν 3 μήνες

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

Josh Lee · Accepted Answer · 2011-04-05T13:29:13+00:00

Στο δυαδικό σύστημα, το 0xE9 μοιάζει με 1110 1001. Αν διαβάσετε για το UTF-8 στη Wikipedia, θα δείτε ότι ένα τέτοιο byte πρέπει να ακολουθείται από δύο της μορφής 10xx xxxx. Έτσι, για παράδειγμα:

>>> b'\xe9\x80\x80'.decode('utf-8')
u'\u9000'

Αλλά αυτό είναι απλώς η μηχανική αιτία της εξαίρεσης. Σε αυτή την περίπτωση, έχετε μια συμβολοσειρά που είναι σχεδόν σίγουρα κωδικοποιημένη σε latin 1. Μπορείτε να δείτε πώς ο UTF-8 και ο latin 1 φαίνονται διαφορετικοί:

>>> u'\xe9'.encode('utf-8')
b'\xc3\xa9'
>>> u'\xe9'.encode('latin-1')
b'\xe9'

(Σημείωση, χρησιμοποιώ ένα μείγμα αναπαράστασης της Python 2 και 3 εδώ. Η είσοδος είναι έγκυρη σε οποιαδήποτε έκδοση της Python, αλλά ο διερμηνέας της Python σας είναι απίθανο να εμφανίζει στην πραγματικότητα τόσο unicode όσο και συμβολοσειρές byte με αυτόν τον τρόπο).