¿Cómo detectar la codificación de un archivo?

Question

Más

Question

¿Cómo detectar la codificación de un archivo?

En mi sistema de archivos (Windows 7) tengo algunos archivos de texto (Son archivos de script SQL, si eso importa).

Cuando se abre con Notepad++, en el menú "Codificación" algunos de ellos se informa de que tienen una codificación de "UCS-2 Little Endian" y algunos de "UTF-8 sin BOM".

¿Cuál es la diferencia? Todas parecen ser escrituras perfectamente válidas. ¿Cómo podría saber qué codificaciones tiene el archivo sin Notepad++?

Ingeniería de Software

utf-8

Solution / Answer

Categorías

Todo

Tecnología

Cultura / Recreación

Vida / Artes

Ciencia

Profesional

Negocios

Usuarios

Todo

Nuevo

Popular

1

Ксения Комарова

Registrado hace 1 mes

2

Артур «Апер»

Registrado hace 2 meses

3

Viktor Malyutin

Registrado hace 2 meses

4

Viktor Malyutin

Registrado hace 2 meses

5

Syahputra Zhedenk

Registrado hace 3 meses

¿Tiene alguna pregunta? Añádela en el sitio y obtén una respuesta al instante

es.kzen.dev

vaughandroid · Accepted Answer · 2013-02-15T10:16:40+00:00

Los archivos suelen indicar su codificación con una cabecera de archivo. Hay muchos ejemplos aquí. Sin embargo, incluso leyendo la cabecera nunca se puede estar seguro de qué codificación está utilizando realmente un archivo.

Por ejemplo, un archivo con los tres primeros bytes 0xEF,0xBB,0xBF es probablemente un archivo codificado en UTF-8. Sin embargo, podría ser un archivo ISO-8859-1 que casualmente comienza con los caracteres ï»¿. O puede ser un tipo de archivo totalmente diferente.

Notepad++ hace todo lo posible por adivinar qué codificación utiliza un archivo, y la mayoría de las veces acierta. Sin embargo, a veces se equivoca - por eso está el menú "Codificación", para que pueda anular su mejor suposición.

Para las dos codificaciones que mencionas:

Los archivos "UCS-2 Little Endian" son archivos UTF-16 (basado en lo que entiendo de la información aquí) así que probablemente comienzan con 0xFF,0xFE como los primeros 2 bytes. Por lo que sé, Notepad++ los describe como "UCS-2" ya que no soporta ciertas facetas de UTF-16.
Los archivos "UTF-8 sin BOM" no tienen ningún byte de cabecera. Eso es lo que significa el bit "sin BOM".