Come rilevare la codifica di un file?

Question

Altro

Question

Come rilevare la codifica di un file?

Sul mio filesystem (Windows 7) ho alcuni file di testo (questi sono file di script SQL, se questo conta).

Quando vengono aperti con Notepad++, nel menu "Encoding" alcuni di essi vengono segnalati con una codifica di "UCS-2 Little Endian" e alcuni di "UTF-8 senza BOM".

Qual è la differenza qui? Sembrano tutti script perfettamente validi. Come potrei dire quali codifiche hanno i file senza Notepad++?

Ingegneria Del Software

utf-8

Solution / Answer

Categorie

Tutti

Tecnologia

Cultura / Tempo Libero

Vita / Arte

Scienza

Professionista

Business

Utenti

Nuovo

1

2

3

4

5

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

vaughandroid · Accepted Answer · 2013-02-15T10:16:40+00:00

I file generalmente indicano la loro codifica con un'intestazione. Ci sono molti esempi qui. Tuttavia, anche leggendo l'intestazione non si può mai essere sicuri di quale codifica un file stia realmente usando.

Per esempio, un file con i primi tre byte 0xEF,0xBB,0xBF è probabilmente un file codificato UTF-8. Tuttavia, potrebbe essere un file ISO-8859-1 che inizia con i caratteri ï»¿. O potrebbe essere un tipo di file completamente diverso.

Notepad++ fa del suo meglio per indovinare quale codifica sta usando un file, e la maggior parte delle volte ci riesce. A volte si sbaglia però - ecco perché il menu 'Encoding'è lì, così puoi sovrascrivere la sua migliore ipotesi.

Per le due codifiche che hai menzionato:

I file "UCS-2 Little Endian" sono file UTF-16 (in base a quanto ho capito dalle informazioni qui) quindi probabilmente iniziano con 0xFF,0xFE come primi 2 byte. Da quello che posso dire, Notepad++ li descrive come "UCS-2" poiché non supporta certi aspetti di UTF-16.
I file "UTF-8 senza BOM" non hanno alcun byte di intestazione. Questo è ciò che significa il bit "senza BOM".