UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 20: ordinal not in range(128)

Question

Дополнительно

Вопрос

UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 20: ordinal not in range(128)

У меня возникли проблемы с символами юникода в тексте, полученном с разных веб-страниц (на разных сайтах). Я использую BeautifulSoup.

Проблема в том, что ошибка не всегда воспроизводима; иногда она работает с некоторыми страницами, а иногда выдает ошибку UnicodeEncodeError. Я перепробовал практически все, что только можно придумать, но так и не нашел ничего, что работало бы постоянно без выброса какой-либо ошибки, связанной с Unicode.

Один из участков кода, который вызывает проблемы, показан ниже:

agent_telno = agent.find('div', 'agent_contact_number')
agent_telno = '' if agent_telno is None else agent_telno.contents[0]
p.agent_info = str(agent_contact + ' ' + agent_telno).strip()

Вот трассировка стека, созданная на НЕКОТОРЫХ строках при выполнении приведенного выше фрагмента:

Traceback (most recent call last):
  File "foobar.py", line 792, in <module>
    p.agent_info = str(agent_contact + ' ' + agent_telno).strip()
UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 20: ordinal not in range(128)

Я подозреваю, что это происходит потому, что некоторые страницы (или, точнее, страницы некоторых сайтов) могут быть закодированы, в то время как другие могут быть некодированными. Все сайты находятся в Великобритании и предоставляют данные, предназначенные для британского потребления - поэтому нет никаких проблем, связанных с интернализацией или работой с текстом, написанным не на английском языке.

Есть ли у кого-нибудь идеи, как это решить, чтобы я мог ПОСТОЯННО устранять эту проблему?

shaneb

Редактировал вопрос 22-го марта 2016 в 1:59

unicode

Решение / Ответ

30-го марта 2012 в 12:25

Дополнительно

Это классическая болевая точка python unicode! Рассмотрим следующее:

a = u'bats\u00E0'
print a
 => batsà

Пока все хорошо, но если мы вызовем str(a), давайте посмотрим, что произойдет:

str(a)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe0' in position 4: ordinal not in range(128)

О, черт, это никому не поможет! Чтобы исправить ошибку, явно закодируйте байты с помощью .encode и укажите python, какой кодек использовать:

a.encode('utf-8')
 => 'bats\xc3\xa0'
print a.encode('utf-8')
 => batsà

Voil\u00E0!

Проблема заключается в том, что когда вы вызываете str(), python использует кодировку символов по умолчанию, чтобы попытаться закодировать переданные вами байты, которые в вашем случае иногда являются представлениями символов юникода. Чтобы решить эту проблему, нужно указать python, как поступить со строкой, которую вы ему передали, используя .encode('whatever_unicode'). В большинстве случаев вы можете использовать utf-8.

Отличное изложение этой темы можно найти в докладе Неда Батчелдера на PyCon здесь: http://nedbatchelder.com/text/unipain.html.

424

0

Max Korolevsky

20-го августа 2014 в 10:13

Дополнительно

Я нашел элегантно обойти для меня, чтобы удалить символы и продолжают хранить строку как строку в редакции:

yourstring = yourstring.encode('ascii', 'ignore').decode('ascii')

Это's важно заметить, что используя параметр ignore опасно, поскольку он автоматически удаляет любые Unicode(и интернационализации) поддержка от кода, который использует его, как видно здесь (преобразования Юникод):

>>> u'City: Malmö'.encode('ascii', 'ignore').decode('ascii')
'City: Malm'

Edeson Bizerril

Редактировал ответ 19-го мая 2018 в 2:42

200

0

Ashwin

2-го сентября 2016 в 1:10

Дополнительно

ну, я попробовал все, но это не помогло, после погуглив вокруг я поняла следующее И это помогло. в Python 2.7 в использовании.

# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')

144

0

maxpolk

2-го декабря 2013 в 5:58

Дополнительно

Тонкая проблема, вызывающая даже печать на неудачу, имеющие ваши переменные окружения установлены неправильно, например. здесь значение lc_all установить, чтобы "с помощью". В Debian они препятствуют его установка: Вики на язык

$ echo $LANG
en_US.utf8
$ echo $LC_ALL 
C
$ python -c "print (u'voil\u00e0')"
Traceback (most recent call last):
  File "<string>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe0' in position 4: ordinal not in range(128)
$ export LC_ALL='en_US.utf8'
$ python -c "print (u'voil\u00e0')"
voilà
$ unset LC_ALL
$ python -c "print (u'voil\u00e0')"
voilà

80

0

Animesh

26-го января 2015 в 2:53

Дополнительно

Для меня, что получилось было:

BeautifulSoup(html_text,from_encoding="utf-8")

Надеюсь, что это помогает кто-то.

27

0

Phil LaNasa

1-го ноября 2013 в 1:44

Дополнительно

Я обнаружил, что в большинстве случаев просто убрать эти символы гораздо проще:

s = mystring.decode('ascii', 'ignore')

24

0

kenorb

13-го августа 2015 в 12:07

Дополнительно

Проблема в том, что вы'вновь пытается напечатать символ Юникода, но ваш терминал не'т поддерживать его.

Вы можете попробовать установить язык-упак-En пакет`, чтобы исправить это:

sudo apt-get install language-pack-en

который обеспечивает английский перевод обновления данных для всех поддерживаемых пакетов (в том числе Python). Установите другой языковой пакет, при необходимости (в зависимости от того, какие символы вы'вновь пытается напечатать).

На некоторых дистрибутивах Linux это'ы, необходимые для того, чтобы убедиться в том, что английской локали по умолчанию настроены правильно (символы Unicode могут быть обработаны консоли/терминала). Иногда это'ы легче установить, чем настройка вручную.

Затем при написании кода, убедитесь, что вы используете правильную кодировку в коде.

Например:

open(foo, encoding='utf-8')

Если вы'вэ еще есть проблема, дважды проверьте ваши настройки системы, такие как:

Ваш языковой файл (/и т. д./По умолчанию/язык), которые должны например

Ланг="по язык.В UTF-8"и Значение lc_all="по язык.В UTF-8"и

или:

Значение lc_all=C. В кодировке UTF-8 Ланг=С. в UTF-8

Значение Ланг/языкового в оболочке.
Проверьте, какой язык ваша оболочка поддерживает:

язык -а | грэп "в кодировке UTF-8"и

Демонстрируя проблемы и решения в свежих виртуальных машин.

Инициализации и предоставления виртуальной машины (например, с помощью Бродяга):

бродяга инит Убунту/trusty64; бродяга вверх; бродяга СШ

<суп>см.: Доступно коробки в Ubuntu.</суп>.

Печать символов Unicode (например, товарный знак, знак как ™):

$ питона на C 'принт(у" и\u2122-то");' Обратная трассировка (самый недавний призыв последнего): Файл " в<строка> По себе", 1 линия, в <модуль> UnicodeEncodeError: 'в формате ASCII' кодек может'т кодировать символ U'\u2122' в позиции 0: порядковый номер не в диапазон(128)

Теперь установка языка-упак-Ан`:

$ судо apt-получить -г установка языковых пакетов-Ан Следующие дополнительные пакеты будут установлены: язык-блок-Ан-базы Генерирующая районов... en_GB.В UTF-8... каталог /usr на/sbin/локаль-го поколения: сделано Полное поколение.

Теперь проблема должна быть решена:

$ питона на C 'принт(у" и\u2122-то");' ™

В противном случае, попробуйте следующую команду:

$ Значение lc_all=C. В кодировке UTF-8 в Python -с 'принт(у" и\u2122-то");' ™

kenorb

Редактировал ответ 30-го января 2019 в 8:13

21

0

Joseph Daudi

23-го июня 2018 в 5:54

Дополнительно

Попробуйте эту может решить,

# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')

21

0

Andriy Ivaneyko

8-го августа 2016 в 10:17

Дополнительно

Добавить строку ниже в начале вашего скрипта ( или как вторая линия):

# -*- coding: utf-8 -*-

Что's для определения Python кодирования исходного кода. Подробнее в Пеп 263.

16

0

BuvinJ

26-го сентября 2017 в 7:23

Дополнительно

Здесь'ы перепевах некоторые другие так называемые "КС" и ответы. Есть ситуации, в которых просто выбросить хлопотно символов/строк-это хорошее решение, несмотря на протесты здесь.

def safeStr(obj):
    try: return str(obj)
    except UnicodeEncodeError:
        return obj.encode('ascii', 'ignore').decode('ascii')
    except: return ""

Испытания это:

if __name__ == '__main__': 
    print safeStr( 1 ) 
    print safeStr( "test" ) 
    print u'98\xb0'
    print safeStr( u'98\xb0' )

Результаты:

1
test
98°
98

Предложение: вы можете назвать эту функцию для toAscii вместо этого? Что's дело предпочтений.

Этот был написан для Python 2. Для Python 3, я верю, что вы'll хочу использовать байт(параметр obj,"в формате ASCII и"), а не ул.(объект). Я не't-тест, но я в какой-то момент и пересмотреть ответ.

BuvinJ

Редактировал ответ 19-го апреля 2019 в 8:43

14

0

Pereira

27-го февраля 2018 в 2:40

Дополнительно

Я всегда ставлю код ниже в первых двух строках файлы Python:

# -*- coding: utf-8 -*-
from __future__ import unicode_literals

8

0

Parag Tyagi -morpheus-

31-го декабря 2015 в 7:57

Дополнительно

Простые вспомогательные функции найти здесь.

def safe_unicode(obj, *args):
    """ return the unicode representation of obj """
    try:
        return unicode(obj, *args)
    except UnicodeDecodeError:
        # obj is byte string
        ascii_text = str(obj).encode('string_escape')
        return unicode(ascii_text)

def safe_str(obj):
    """ return the byte string representation of obj """
    try:
        return str(obj)
    except UnicodeEncodeError:
        # obj is unicode
        return unicode(obj).encode('unicode_escape')

Parag Tyagi -morpheus-

Редактировал ответ 31-го декабря 2015 в 11:18

6

0

Kairat Koibagarov

31-го января 2018 в 5:50

Дополнительно

Просто добавить к переменной кодирования('кодировка UTF-8')

agent_contact.encode('utf-8')

5

0

Hồ Ngọc Vượng

25-го декабря 2018 в 1:37

Дополнительно

Пожалуйста, откройте терминал и огонь следующую команду:

export LC_ALL="en_US.UTF-8"

4

0

Aravind Krishnakumar

1-го ноября 2017 в 9:58

Дополнительно

Ниже Решение работает для меня, просто добавил

у "в строке"и

(представляющая строку в юникоде) перед моей строкой.

result_html = result.to_html(col_space=1, index=False, justify={'right'})

text = u"""
<html>
<body>
<p>
Hello all, <br>
<br>
Here's weekly summary report.  Let me know if you have any questions. <br>
<br>
Data Summary <br>
<br>
<br>
{0}
</p>
<p>Thanks,</p>
<p>Data Team</p>
</body></html>
""".format(result_html)

Aravind Krishnakumar

Редактировал ответ 30-го мая 2018 в 10:57

3

0

Drag0

27-го ноября 2016 в 9:59

Дополнительно

Я просто использовал следующие:

import unicodedata
message = unicodedata.normalize("NFKD", message)

Проверить, что документация говорит об этом:

unicodedata.нормализовать(форма, unistr) вернуть нормальную форму Форма для По строке unistr Юникод. Допустимые значения для формы ‘НФК’, ‘NFKC’, ‘НФД " и " NFKD’.

стандарт Юникод определяет различные формы нормализации Юникода строка, исходя из определения канонической эквивалентности и эквивалентность совместимости. В Юникоде, нескольких персонажей может быть выражается различным образом. Например, символ U+00C7 (лат. буквы C с СЕДИЛЬЮ) могут также быть выражены как последовательность у+0043 (латинская буква С) от U+0327 (объединения СЕДИЛЬ).

для каждого персонажа, существует два нормальных форм: обычной форме C и нормальная форма Д. нормальная форма D (НФД) также известен как канонический разложение, и переводит каждый символ в своей раскладываться. нормальная форма c (ЯТЦ) впервые применяет каноническое разложение, то сочиняет предварительно смешанная героев снова.

В дополнение к этим двум формам, есть два дополнительных нормальных форм на основе эквивалентности совместимости. В кодировке Unicode, определенные знаки поддерживается, который, как правило, будет унифицирована с другими персонажами. Для например, с U+2160 (римская цифра один) на самом деле то же самое как U+0049 (прописная латинская буква i). Однако, он поддерживается в Unicode совместимости с существующими наборами символов (например, набор gb2312).

В нормальной форме КД (NFKD) будет применять декомпозиции совместимости, Т. е. заменить все символы совместимость с их эквиваленты. В В нормальном варианте KC (NFKC) впервые применяет разложение совместимости затем канонический состав.

даже если две строки в юникоде нормализуются и выглядеть так же, к У человека читатель, если сочетание символов, а другой нет, они могут быть не равны.

Решает ее для меня. Простой и легкий.

3

0

hhh

15-го апреля 2019 в 9:49

Дополнительно

Увы, это работает в Python 3, по крайней мере...

В Python 3

Иногда ошибка в переменных среды и enconding так

import os
import locale
os.environ["PYTHONIOENCODING"] = "utf-8"
myLocale=locale.setlocale(category=locale.LC_ALL, locale="en_GB.UTF-8")
... 
print(myText.encode('utf-8', errors='ignore'))

где ошибки игнорируются при кодировании.

1

0

Похожие сообщества 30

Python beginners

14 568 пользователей

Вопросы про Python для чайников. Cпам и троллинг неприемлем. Частозадаваемые вопросы: https://github.com/ru-python-beginners/faq/blob/master/README.md Правила группы: https://t.me/ru_python_beginners/2752736

Открыть telegram

Python

13 656 пользователей

Уютный чат для профессионалов, занимающихся поиском питоньих мудростей. Как не получить бан: https://t.me/ru_python/1961404

Открыть telegram

🐍 Python Stepik Chat

11 621 пользователей

Этот уютный чат создан для помощи в решение задач на прекрасном курсе "Поколение Python: курс для начинающих" и не только. Правила: https://t.me/pythonstepikchat/619142 Чат для оффтопа - t.me/+fqNb78zlQY81NGUy Наш канал - @kimport_this

Открыть telegram

Вакансии для Python-разработчиков / Python Jobs

6 970 пользователей

Как разместить вакансию? — https://t.me/ru_pythonjobs/21926 Размещение вакансий бесплатно. Только Python. Рекламы нет.

Открыть telegram

Python — вакансии и аналитика

6 933 пользователей

Публикуем вакансии и запросы на поиск работы по направлению Python, Flask и т.д. Здесь всё: full-time, part-time, remote и разовые подработки. См. также: @golang_jobs, @qa_jobs, @devops_jobs, @javascript_jobs, @nodejs_jobs, @uiux_jobs, @products_jobs

Открыть telegram