Ako zistiť kódovanie súboru?

Question

Viac na

Question

Ako zistiť kódovanie súboru?

V mojom súborovom systéme (Windows 7) mám niekoľko textových súborov (ak na tom záleží, sú to súbory skriptov SQL).

Keď ich otvorím pomocou Notepad++, v ponuke "Encoding" sa pri niektorých z nich hlási kódovanie "UCS-2 Little Endian" a pri niektorých "UTF-8 bez BOM".

Aký je tu rozdiel? Zdá sa, že všetky sú úplne platné skripty. Ako by som mohol zistiť, aké kódovanie má súbor bez Poznámkového bloku++?

Softvérové inžinierstvo

utf-8

Solution / Answer

Kategórie

Všetky

Technológia

Kultúra / Rekreácia

Život / Umenie

Veda

Profesionálne

Obchod

Používatelia

Všetky

New

Popular

1

Ксения Комарова

Registered pred 3 týždňami

2

Артур «Апер»

Registered pred 2 mesiacmi

3

Viktor Malyutin

Registered pred 2 mesiacmi

4

Viktor Malyutin

Registered pred 2 mesiacmi

5

Syahputra Zhedenk

Registered pred 2 mesiacmi

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

vaughandroid · Accepted Answer · 2013-02-15T10:16:40+00:00

Súbory zvyčajne označujú svoje kódovanie pomocou hlavičky súboru. Existuje mnoho príkladov tu. Ani pri čítaní hlavičky si však nikdy nemôžete byť istí, aké kódovanie súbor skutočne používa**.

Napríklad súbor s prvými tromi bajtmi 0xEF,0xBB,0xBF je pravdepodobne súbor s kódovaním UTF-8. Môže to však byť súbor ISO-8859-1, ktorý náhodou začína znakmi ï»¿. Alebo to môže byť úplne iný typ súboru.

Poznámkový blok++ sa snaží odhadnúť, aké kódovanie súbor používa, a väčšinou sa mu to podarí. Niekedy sa však mýli - preto je tu ponuka 'Kódovanie', aby ste mohli zrušiť jeho najlepší odhad.

Pre dve kódovania, ktoré ste spomenuli:

Súbory "UCS-2 Little Endian" sú súbory UTF-16 (podľa toho, čo som pochopil z informácií tu), takže pravdepodobne začínajú s 0xFF,0xFE ako prvé 2 bajty. Podľa toho, čo viem, Notepad++ ich opisuje ako "UCS-2", pretože nepodporuje určité aspekty UTF-16.
Súbory "UTF-8 bez BOM" nemajú žiadne bajty hlavičky. To znamená bit "bez BOM".