Πώς να ανιχνεύσετε την κωδικοποίηση ενός αρχείου;

Question

Περισσότερα

Ερώτηση

Πώς να ανιχνεύσετε την κωδικοποίηση ενός αρχείου;

Στο σύστημα αρχείων μου (Windows 7) έχω κάποια αρχεία κειμένου (Πρόκειται για αρχεία σεναρίων SQL, αν αυτό έχει σημασία).

Όταν ανοίγουν με το Notepad++, στο μενού "Κωδικοποίηση" μερικά από αυτά αναφέρεται ότι έχουν κωδικοποίηση "UCS-2 Little Endian" και μερικά "UTF-8 χωρίς BOM".

Ποια είναι η διαφορά εδώ; Όλα φαίνονται να είναι απολύτως έγκυρα σενάρια. Πώς θα μπορούσα να καταλάβω τι κωδικοποιήσεις έχουν τα αρχεία χωρίς το Notepad++;

utf-8

Λύση / Απάντηση

Κατηγορίες

Όλα

Τεχνολογία

Πολιτισμός / Αναψυχή

Ζωή / Τέχνες

Επιστήμη

Επαγγελματικό

Επιχείρηση

Χρήστες

Όλα

Νέα

Δημοφιλές

1

Ксения Комарова

Εγγεγραμμένη πριν 1 μήνας

2

Артур «Апер»

Εγγεγραμμένη πριν 2 μήνες

3

Viktor Malyutin

Εγγεγραμμένη πριν 2 μήνες

4

Viktor Malyutin

Εγγεγραμμένη πριν 2 μήνες

5

Syahputra Zhedenk

Εγγεγραμμένη πριν 3 μήνες

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

vaughandroid · Accepted Answer · 2013-02-15T10:16:40+00:00

Τα αρχεία γενικά υποδεικνύουν την κωδικοποίησή τους με μια επικεφαλίδα αρχείου. Υπάρχουν πολλά παραδείγματα εδώ. Ωστόσο, ακόμα και αν διαβάσετε την επικεφαλίδα δεν μπορείτε ποτέ να είστε σίγουροι για την πραγματική κωδικοποίηση που χρησιμοποιεί ένα αρχείο.

Για παράδειγμα, ένα αρχείο με τα τρία πρώτα bytes 0xEF,0xBB,0xBF είναι πιθανότατα ένα αρχείο με κωδικοποίηση UTF-8. Ωστόσο, μπορεί να είναι ένα αρχείο ISO-8859-1 το οποίο τυχαίνει να αρχίζει με τους χαρακτήρες ï»¿. Ή μπορεί να είναι ένας τελείως διαφορετικός τύπος αρχείου.

Το Notepad++ κάνει ό,τι μπορεί για να μαντέψει ποια κωδικοποίηση χρησιμοποιεί ένα αρχείο και τις περισσότερες φορές τα καταφέρνει σωστά. Μερικές φορές όμως κάνει λάθος - γι' αυτό υπάρχει το μενού 'Κωδικοποίηση', ώστε να μπορείτε να παρακάμψετε την καλύτερη δυνατή εικασία του.

Για τις δύο κωδικοποιήσεις που αναφέρετε:

Τα αρχεία "UCS-2 Little Endian" είναι αρχεία UTF-16 (με βάση αυτό που καταλαβαίνω από τις πληροφορίες εδώ), οπότε πιθανότατα ξεκινούν με 0xFF,0xFE ως τα 2 πρώτα bytes. Από ό, τι μπορώ να πω, το Notepad++ τα περιγράφει ως "UCS-2" αφού δεν υποστηρίζει ορισμένες πτυχές του UTF-16.
Τα αρχεία "UTF-8 χωρίς BOM" δεν έχουν κανένα byte κεφαλίδας. Αυτό σημαίνει το bit "χωρίς BOM".