Bir dosyanın kodlaması nasıl tespit edilir?

Question

Daha

Question

Bir dosyanın kodlaması nasıl tespit edilir?

Dosya sistemimde (Windows 7) bazı metin dosyalarım var (Bunlar SQL betik dosyaları, eğer önemliyse).

Notepad++]1 ile açıldığında, "Encoding" menüsünde bazılarının "UCS-2 Little Endian" ve bazılarının "UTF-8 without BOM" kodlamasına sahip olduğu bildirilmektedir.

Buradaki fark nedir? Hepsi tamamen geçerli senaryolar gibi görünüyor. Notepad++ olmadan dosyanın hangi kodlamalara sahip olduğunu nasıl anlayabilirim?

utf-8

Solution / Answer

Kategoriler

Herşey

Teknoloji

Kültür / Rekreasyon

Yaşam / Sanat

Bilim

Profesyonel

İş Dünyası

Kullanıcılar

All

New

Popular

1

2

3

4

5

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

vaughandroid · Accepted Answer · 2013-02-15T10:16:40+00:00

Dosyalar genellikle kodlamalarını bir dosya başlığı ile belirtir. Birçok örnek vardır burada. Ancak, başlığı okusanız bile bir dosyanın gerçekten hangi kodlamayı kullandığından asla emin olamazsınız.

Örneğin, ilk üç baytı 0xEF,0xBB,0xBF olan bir dosya muhtemelen UTF-8 kodlu bir dosyadır. Ancak, ï»¿ karakterleriyle başlayan bir ISO-8859-1 dosyası olabilir. Ya da tamamen farklı bir dosya türü olabilir.

Notepad++ bir dosyanın hangi kodlamayı kullandığını tahmin etmek için elinden geleni yapar ve çoğu zaman bunu doğru yapar. Yine de bazen yanlış yapar - bu yüzden 'Encoding' menüsü vardır, böylece en iyi tahminini geçersiz kılabilirsiniz.

Bahsettiğiniz iki kodlama için:

UCS-2 Little Endian" dosyaları UTF-16 dosyalarıdır (buradaki 2 bilgilerden anladığım kadarıyla), bu nedenle muhtemelen ilk 2 bayt olarak 0xFF,0xFE ile başlar. Anladığım kadarıyla, Notepad++ bunları "UCS-2" olarak tanımlıyor çünkü UTF-16'nın belirli yönlerini desteklemiyor.
BOM&quot olmadan "UTF-8" dosyalarında herhangi bir başlık baytı yoktur. Bu "BOM" olmadan" bitinin ne anlama geldiğini gösterir.