Cara mendeteksi encoding file?

File yang umumnya menunjukkan mereka encoding dengan file header. Ada banyak contoh di sini. Namun, bahkan membaca header anda tidak pernah bisa yakin apa encoding file benar-benar menggunakan.

Sebagai contoh, sebuah file dengan tiga byte pertama 0xEF,0xBB,0xBF adalah mungkin UTF-8 encoded file. Namun, hal itu mungkin menjadi ISO-8859-1 file yang terjadi untuk memulai dengan karakterï»¿. Atau mungkin jenis file yang berbeda sepenuhnya.

Notepad++ melakukan yang terbaik untuk menebak apa encoding file menggunakan, dan sebagian besar waktu itu mendapatkannya benar. Kadang-kadang itu tidak salah meskipun - itu's mengapa itu 'Encoding' menu yang ada, sehingga anda dapat mengganti nya kira yang terbaik.

Untuk dua pengkodean yang anda sebutkan:

"UCS-2 Little Endian" file UTF-16 file (berdasarkan apa yang saya pahami dari info di sini) jadi mungkin mulai dengan 0xFF,0xFE sebagai yang pertama 2 byte. Dari apa yang saya dapat katakan, Notepad++ menggambarkan mereka sebagai "UCS-2" sejak itu doesn't dukungan aspek tertentu dari UTF-16.
"UTF-8 tanpa BOM" file don't memiliki header byte. Yang's apa "tanpa BOM" sedikit berarti.