Comment détecter l'encodage d'un fichier ?

Question

Détails

Question

Comment détecter l'encodage d'un fichier ?

Sur mon système de fichiers (Windows 7), j'ai quelques fichiers texte (ce sont des fichiers de script SQL, si cela a de l'importance).

Lorsqu'ils sont ouverts avec [Notepad++][1], dans le menu "Encodage&quot ; certains d'entre eux sont signalés comme ayant un encodage de "UCS-2 Little Endian&quot ; et d'autres de "UTF-8 without BOM&quot ;.

Quelle est la différence ? Ils semblent tous être des scripts parfaitement valides. Comment pourrais-je savoir quels sont les encodages du fichier sans Notepad++ ?

[1] : http://notepad-plus-plus.org/

utf-8

Solution / Réponse

Catégories

Toutes

Technologie

Culture / Loisirs

Vie / Arts

Science

Professionnel

Entreprises

Utilisateurs

Tous

Nouveau

Populaire

1

Ксения Комарова

Enregistré il y a 1 mois

2

Артур «Апер»

Enregistré il y a 2 mois

3

Viktor Malyutin

Enregistré il y a 2 mois

4

Viktor Malyutin

Enregistré il y a 2 mois

5

Syahputra Zhedenk

Enregistré il y a 3 mois

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

vaughandroid · Accepted Answer · 2013-02-15T10:16:40+00:00

Les fichiers indiquent généralement leur encodage par un en-tête de fichier. Il existe de nombreux exemples [ici][1]. Cependant, même en lisant l'en-tête, on ne peut jamais être sûr de l'encodage réellement utilisé par un fichier.

Par exemple, un fichier dont les trois premiers octets sont 0xEF,0xBB,0xBF est probablement un fichier encodé en UTF-8. Cependant, il peut s'agir d'un fichier ISO-8859-1 qui commence par les caractères ï»¿. Ou bien il peut s'agir d'un type de fichier entièrement différent.

Notepad++ fait de son mieux pour deviner l'encodage utilisé par un fichier, et la plupart du temps, il y parvient. Il arrive cependant qu'il se trompe. C'est la raison pour laquelle le menu "Encodage" est là, pour que vous puissiez passer outre sa meilleure estimation.

Pour les deux encodages que vous mentionnez :

Les fichiers "UCS-2 Little Endian&quot ; sont des fichiers UTF-16 (d'après ce que j'ai compris de l'info [ici][2]) donc probablement ils commencent avec 0xFF,0xFE comme les 2 premiers octets. D'après ce que je sais, Notepad++ les décrit comme "UCS-2&quot ; puisqu'il ne supporte pas certaines facettes de l'UTF-16.
Les fichiers "UTF-8 sans BOM" n'ont pas d'octets d'en-tête. C'est ce que signifie le bit "without BOM&quot ;.

[1] : http://www.garykessler.net/library/file_sigs.html [2] : http://www.unicode.org/faq/basic_q.html#14