UTF-8とISO-8859-1の違いは何ですか？

Question

さらに

Jagadesh

質問

UTF-8とISO-8859-1の違いは何ですか？

UTF-8]1とISO-8859-1の違いは何ですか？

Owereve

編集された質問 31日 5月 2019 в 5:20

utf-8

人気動画

« 前へ

カテゴリ

すべて

技術情報

文化・レクリエーション

生活・芸術

科学

プロフェッショナル

事業内容

ユーザー

すべて

新しい

人気

1

2

3

4

5

Do you have a question? Add it on the site and get an answer instantly

ja.kzen.dev

Ignacio Vazquez-Abrams · Answer 1 · 2011-08-13T05:26:55+00:00

UTF-8は、任意のUnicode文字を表現できるマルチバイトエンコーディングです。ISO 8859-1はシングルバイトのエンコーディングで、最初の256個のUnicodeキャラクタを表現できます。どちらもASCIIを全く同じようにエンコードします。

StaxMan · Answer 2 · 2011-08-13T05:30:17+00:00

ウィキペディアでは、両者を合理的に説明しています。UTF-8 vs Latin-1 (ISO-8859-1)。前者は可変長エンコーディング、後者は1バイトの固定長エンコーディングです。 Latin-1 は Unicode 文字セットの最初の 256 コードポイントだけをエンコードしますが、UTF-8 はすべてのコードポイントをエンコードすることができます。物理的な符号化レベルでは、コードポイント0〜127だけが同じように符号化され、コードポイント128〜255は、UTF-8では2バイト列になるのに対し、Latin-1では1バイトになるという違いがあります。

Sammitch · Answer 3 · 2016-08-23T19:15:55+00:00

UTF。

UTFは、Unicodeコードを表すことができるマルチバイトエンコーディングスキームのファミリーです。最大2 ^ 31 [約20億]文字を反復できます。 UTF-8は、1〜4バイトを使用して最初の2 ^ 21 [約200万]コードポイントを表す柔軟なエンコーディングシステムです。

要するに、コードポイント/序数が127未満の任意の文字、別名7ビットセーフASCIIは、他のほとんどのシングルバイトエンコーディングと同じ1バイトシーケンスで表されます。コードポイントが127を超える文字は、2つ以上のバイトのシーケンスで表され、エンコーディングの特定のものが最もよく説明されていますここ。

ISO-8859。

ISO-8859は、127から255の範囲で表すことができるアルファベットを表すために使用されるシングルバイトエンコーディングスキームのファミリーです。これらのさまざまなアルファベットは、ISO-8859- n 形式の「パーツ」として定義されています。これらの中で最もよく知られているのは、[ISO-8859-1](https://en.wikipedia.org/wiki/ISO/ IEC_8859-1)別名「ラテン語-1」。 UTF-8と同様に、7ビットセーフASCIIは、使用されているエンコーディングファミリに関係なく影響を受けません。

このエンコーディングスキームの欠点は、128を超えるシンボルで構成される言語に対応できないこと、または一度に複数のシンボルのファミリを安全に表示できないことです。同様に、ISO-8859エンコーディングはUTFの台頭により支持されなくなりました。それを担当するISO「ワーキンググループ」は2004年に解散し、維持は親小委員会に委ねられました。

Shital Shah · Answer 4 · 2016-06-03T19:31:54+00:00

ISO-8859-1は、1980年代に作られたレガシーな規格です。256文字しか表現できないため、欧米の一部の言語にしか適していません。また、多くの言語に対応しているにもかかわらず、一部の文字が欠落しています。このエンコーディングでテキストファイルを作成し、いくつかの中国語の文字をコピー＆ペーストしようとすると、奇妙な結果が表示されます。つまり、使うなということです。Unicodeは世界を席巻しており、レガシーな理由（HTTPヘッダなど、あらゆるものと互換性が必要）がない限り、最近ではUTF-8がほぼ標準となっています。

Cyker · Answer 5 · 2018-10-28T23:04:21+00:00

-ASCII:7ビット。 128コードポイント。

-ISO-8859-1:8ビット。 256コードポイント。

-UTF-8:8-32ビット(1-4バイト)。 1,112,064コードポイント。

ISO-8859-1とUTF-8はどちらもASCIIと下位互換性がありますが、UTF-8はISO-8859-1と下位互換性がありません。

#!/usr/bin/env python3

c = chr(0xa9)
print(c)
print(c.encode('utf-8'))
print(c.encode('iso-8859-1'))

出力:

©
b'\xc2\xa9'
b'\xa9'

Nikhil VJ · Answer 6 · 2018-04-15T05:49:48+00:00

別の見方をすると、unicodeとasciiの両方のエンコーディングにバイト 0xc0が含まれているために読み取れないファイルは、iso-8859-1で適切に読み取られるようです。注意点は、ファイルにユニコード文字を含めるべきではないということです。

Alan Jurgensen · Answer 7 · 2016-09-02T14:20:31+00:00

この質問を研究した私の理由は、彼らがどのように互換性があるかという観点からでした。 Latin1文字セット(iso-8859)は、utf8データストアに保存するために100%互換性があります。すべてのascii&拡張asciiチャーはシングルバイトとして保存されます。

逆に、utf8からLatin1文字セットまでは、機能する場合と機能しない場合があります。 2バイトの文字(拡張ASCii 255を超える文字)がある場合、Latin1データストアには保存されません。