Python-String nach Unicode

Question

Mehr

Frage

Python-String nach Unicode

Mögliches Duplikat: Wie behandle ich eine ASCII-Zeichenkette als Unicode und entschlüssle die darin enthaltenen Escape-Zeichen in Python? Wie konvertiert man Unicode-Escape-Sequenzen in Unicode-Zeichen in einem Python-String

Ich habe eine Zeichenkette, die Unicode-Zeichen enthält, z.B. \u2026 usw. Irgendwie wird sie nicht als "Unicode" empfangen, sondern als "Str". Wie kann ich sie wieder in Unicode umwandeln?

>>> a="Hello\u2026"
>>> b=u"Hello\u2026"
>>> print a
Hello\u2026
>>> print b
Hello…
>>> print unicode(a)
Hello\u2026
>>>

Also ist unicode(a) eindeutig nicht die Antwort. Was ist es dann?

Community

Bearbeitete Frage 23. Mai 2017 в 12:10

unicode

Lösung / Antwort

22. April 2012 в 1:59

Mehr

Dekodieren Sie es mit dem Codec unicode-escape:

>>> a="Hello\u2026"
>>> a.decode('unicode-escape')
u'Hello\u2026'
>>> print _
Hello…

Das liegt daran, dass bei einer Nicht-Unicode-Zeichenkette das \u2026 nicht erkannt wird, sondern als eine wörtliche Folge von Zeichen behandelt wird (um es deutlicher auszudrücken, 'Hello\\u2026'). Sie müssen die Escape-Zeichen dekodieren, und der Codec unicode-escape kann das für Sie tun.

Beachten Sie, dass Sie unicode dazu bringen können, es auf die gleiche Weise zu erkennen, indem Sie das Argument codec angeben:

>>> unicode(a, 'unicode-escape')
u'Hello\u2026'

Aber die a.decode() Methode ist schöner.

26

0

jamylak

22. April 2012 в 2:00

Mehr

>>> a="Hello\u2026"
>>> print a.decode('unicode-escape')
Hello…

16

0

Frage hinzufügen

Kategorien

Alle

Technologie

Kultur/Erholung

Leben/Kunst

Wissenschaft

Professionell

Unternehmen

Benutzer

Alle

Neu

Beliebt

1

Ксения Комарова

Registriert vor 2 Wochen

2

Артур «Апер»

Registriert vor 1 Monat

3

Viktor Malyutin

Registriert vor 2 Monaten

4

Viktor Malyutin

Registriert vor 2 Monaten

5

Syahputra Zhedenk

Registriert vor 2 Monaten

Haben Sie eine Frage? Fügen Sie sie auf der Website hinzu und erhalten Sie sofort eine Antwort

de.kzen.dev

georg · Accepted Answer · 2012-04-22T13:59:40+00:00

Unicode-Escapes funktionieren nur in Unicode-Zeichenfolgen, so dass diese

 a="\u2026"

eigentlich eine Zeichenkette mit 6 Zeichen: '\', 'u', '2', '0', '2', '6'.

Um daraus Unicode zu machen, verwenden Sie decode('unicode-escape'):

a="\u2026"
print repr(a)
print repr(a.decode('unicode-escape'))

## '\\u2026'
## u'\u2026'