UTF-8和ISO-8859-1之间的区别是什么？

维基百科对两者都有合理的解释。UTF-8 vs Latin-1 （ISO-8859-1）。前者是一个可变长度的编码，后者是单字节的固定长度编码。 Latin-1只对Unicode字符集的前256个码位进行编码，而UTF-8则可用于编码所有码位。在物理编码层面，只有0-127个码位的编码是相同的；128-255个码位在UTF-8中成为2字节序列，而在Latin-1中则是单字节。

Sammitch · Answer 3 · 2016-08-23T19:15:55+00:00

UTF

UTF](https://en.wikipedia.org/wiki/UTF)是一个多字节编码方案系列，可以代表[Unicode](https://en.wikipedia.org/wiki/Unicode)码点，最多可代表2^31[约20亿]个字符。 UTF-8](https://en.wikipedia.org/wiki/UTF-8)是一个灵活的编码系统，使用1到4个字节来表示前2^21[约200万]个码点。

长话短说。任何码点/末尾表示在127以下的字符，也就是7位安全ASCII码，与大多数其他单字节编码一样，用1字节序列表示。任何码点高于127的字符由两个或更多的字节序列表示，编码的特殊性最好解释这里。

ISO-8859

ISO-8859是一个单字节编码方案系列，用于表示可在127至255范围内表示的字母。这些不同的字母被定义为"部件&quot。格式ISO-8859-n，其中最熟悉的可能是ISO-8859-1又名'Latin-1'。与UTF-8一样，无论使用哪种编码族，7位安全的ASCII都不受影响。

这种编码方案的缺点是无法适应由超过128个符号组成的语言，或者无法同时安全地显示一个以上的符号族。同样，随着UTF的兴起，ISO-8859编码已经不受欢迎了。 ISO的"工作组&quot。负责它的工作小组已于2004年解散，将维护工作留给了它的上级小组委员会。

Shital Shah · Answer 4 · 2016-06-03T19:31:54+00:00

ISO-8859-1是20世纪80年代的一个传统标准。它只能代表256个字符，所以只适合西方世界的一些语言。即使是许多被支持的语言，也缺少一些字符。如果你用这种编码创建一个文本文件，并尝试复制/粘贴一些中文字符，你会看到奇怪的结果。因此，换句话说，不要使用它。Unicode已经占领了世界，而UTF-8也几乎是现在的标准，除非你有一些遗留的原因（如需要与所有东西兼容的HTTP头文件）。

Cyker · Answer 5 · 2018-10-28T23:04:21+00:00

ASCII码。 7位 128个码点。
ISO-8859-1。 8859 -1: 8位. 256个码点。
UTF-8：8-32位（1-4字节）。 8 -32位（1 -4个字节）。 1,112,064个码点。

ISO-8859-1和UTF-8都能向后兼容ASCII码，但UTF-8不能向后兼容ISO-8859-1。

#!/usr/bin/env python3

c = chr(0xa9)
print(c)
print(c.encode('utf-8'))
print(c.encode('iso-8859-1'))

产出：

©
b'\xc2\xa9'
b'\xa9'

Nikhil VJ · Answer 6 · 2018-04-15T05:49:48+00:00

从另一个角度看，unicode和ascii编码都无法读取的文件，因为其中有一个字节0xc0，似乎可以被iso-8859-1正确读取。需要注意的是，文件中当然不应该有unicode字符。

Alan Jurgensen · Answer 7 · 2016-09-02T14:20:31+00:00

我研究这个问题的原因是从这个角度出发的，是它们以何种方式兼容。 Latin1 charset (iso-8859)是100%兼容的，可以存储在utf8数据存储中。所有ascii & 扩展的ascii字符将被存储为单字节。

反之，从utf8到Latin1字符集可能会或可能不会工作。如果有任何 2 字节的字符（超出 extended-ascii 255 的字符），它们将不会存储在 Latin1 数据存储中。