Kādu apzīmējumu izmantot, lai definētu HTML5 Doctype?
Īsā:
<meta charset="utf-8" />
Garš:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
HTML5 tie ir līdzvērtīgi. Izmantojiet īsāko, jo to ir vieglāk atcerēties un ievadīt. Pārlūkprogrammu atbalsts ir labs, jo tas tika izstrādāts atpakaļejošai savietojamībai.
Abas meta charset deklarācijas formas ir līdzvērtīgas, un tām vajadzētu darboties vienādi visās pārlūkprogrammās. Tomēr ir dažas lietas, kas jāatceras, deklarējot tīmekļa failu rakstzīmju kopu UTF-8:
Apache serveri pēc noklusējuma ir konfigurēti failu apkalpošanai ISO-8859-1 kodējumā, tāpēc jūsu .htaccess
failā jāpievieno šāda rinda:
AddDefaultCharset UTF-8
Tas konfigurēs Apache apkalpot jūsu failus, deklarējot UTF-8 kodējumu atbildes galvenē Content-Type, bet jūsu failiem jābūt saglabātiem UTF-8 (bez BOM), lai sāktu.
Notepad nevar saglabāt failus UTF-8 kodējumā bez BOM. Bezmaksas redaktors, kas to spēj, ir Notepad++. Programmas izvēlnes joslā izvēlieties "Kodēšana > Kodēt UTF-8 bez BOM". Jūs varat arī atvērt failus un atkārtoti saglabāt tos UTF-8 formātā, izmantojot "Kodēšana > Konvertēt uz UTF-8 bez BOM".
Vairāk par Bajtu kārtas zīme (BOM) Vikipēdijā.
Vēl viens iemesls, kādēļ izvēlēties īso, ir tas, ka tas atbilst citiem gadījumiem, kad marķējumā var norādīt rakstzīmju kopu. Piemēram:
<script type="javascript" charset="UTF-8" src="/script.js"></script>
<p><a charset="UTF-8" href="http://example.com/">Example Site</a></p>
Konsekvence palīdz samazināt kļūdu skaitu un padara kodu vieglāk lasāmu.
Ņemiet vērā, ka atribūtā charset nav izšķirti mazie un lielie burti. Var izmantot UTF-8 vai utf-8, tomēr UTF-8 ir skaidrāks, lasāmāks un precīzāks.
Turklāt nav pilnīgi nekāda iemesla meta charset atribūtā vai lapas galvenē izmantot jebkuru citu vērtību, izņemot UTF-8. UTF-8 ir tīmekļa dokumentu noklusējuma kodējums kopš HTML4 1999. gadā, un tas ir vienīgais praktiskais veids, kā veidot modernas tīmekļa lapas.
Tāpat nevajadzētu izmantot HTML vienības UTF-8 kodējumā. Tādi simboli kā autortiesību simbols ir jāievada tieši. Vienīgās vienības, kas jāizmanto, ir piecas rezervētās iezīmēšanas zīmes: mazāka par, lielāka par, ampersanda, pirmpuse, dubultpuse. Entitātēm ir nepieciešams HTML analizators, ko turpmāk ne vienmēr vēlaties izmantot, tās ievieš kļūdas, padara jūsu kodu sliktāk lasāmu, palielina faila izmēru un dažkārt nepareizi atšifrē dažādās pārlūkprogrammās atkarībā no izmantotajām entitātēm. Uzziniet, kā ievadīt/ievietot autortiesības, preču zīmi, atvērto un slēgto pēdiņu, apostrofu, em domuzīmi, en domuzīmi, bullet, euro un citas rakstzīmes, kas sastopamas jūsu saturā, un izmantojiet šīs faktiskās rakstzīmes savā kodā. Mac datorā ir rakstzīmju skatītājs, ko var ieslēgt tastatūras sistēmas preferenču sadaļā, un jūs varat atrast un pēc tam vilkt un nomest vajadzīgās rakstzīmes vai izmantot atbilstošo tastatūras skatītāju, lai redzētu, kurus taustiņus rakstīt. Piemēram, preču zīme ir Option+2. UTF-8 satur visas visu cilvēku rakstīto valodu rakstzīmes un simbolus. Tāpēc nav attaisnojuma, ja em domuzīmes vietā lietojat --. Nav slikti apgūt arī interpunkcijas un tipogrāfijas noteikumus... piemēram, zināt, ka punkts ir jāievieto slēgtā pēdiņā, nevis ārpus tā.
<meta> tagu lietošana, piemēram, satura tipam un kodēšanai, ir ļoti ieteicama. ironija, jo, nezinot šīs lietas, jūs nevarētu analizēt failu. lai iegūtu meta birkas vērtību.
Nē, tā nav taisnība. Pārlūkprogramma sāk analizēt failu kā pārlūkprogrammas noklusējuma kodējumu - UTF-8 vai ISO-8859-1. Tā kā US-ASCII ir gan ISO-8859-1, gan UTF-8 apakškopa, pārlūkprogramma var lasīt
jebkurā gadījumā... tas ir tas pats. Ja pārlūkprogramma sastopas ar meta charset tagu, ja kodējums atšķiras no tā, ko pārlūkprogramma jau izmanto, pārlūkprogramma pārlādē lapu norādītajā kodējumā. Tāpēc meta charset tagu mēs ievietojam augšpusē, uzreiz pēc head taga, pirms visa pārējā, pat virsraksta. Tādējādi virsrakstā varat izmantot UTF-8 rakstzīmes.Jums jāglabā faili UTF-8 kodējumā bez BOM.
Tas nav gluži taisnība. Ja jūsu dokumentā ir tikai US-ASCII rakstzīmes, varat to saglabāt kā US-ASCII un pasniegt kā UTF-8, jo tā ir apakškomplekts. Bet, ja ir Unicode rakstzīmes, jums ir taisnība, jums ir jāsaglabā kā UTF-8 bez BOM.
Ja vēlaties labu teksta redaktoru, kas saglabās jūsu failus UTF-8, es iesaku Notepad++.
Mac operētājsistēmā izmantojiet Bare Bones TextWrangler (bezmaksas) no Mac App Store vai Bare Bones BBEdit, kas Mac App Store ir pieejams par 39,99 $ ... ļoti lēti par tik lielisku rīku. Abās lietotnēs dokumenta loga apakšā ir izvēlne, kurā norādiet dokumenta kodējumu, un jūs varat viegli izvēlēties "UTF-8 bez BOM". Un, protams, to var iestatīt kā noklusējuma iestatījumu jauniem dokumentiem sadaļā Preferences.
Bet, ja jūsu tīmekļa serveris kodējumu norāda HTTP galvenē, kas ir ieteicams, abas [meta tagi] ir lieki.
Tas ir nepareizi. Jums, protams, ir jānorāda kodējums HTTP galvenē, bet tas ir jānorāda arī meta charset atribūtā, lai lietotājs varētu saglabāt lapu, izņemt to no pārlūkprogrammas un saglabāt lokālajā atmiņā un vēlāk atkal atvērt, un tādā gadījumā vienīgā norāde par kodējumu būs meta charset atribūtā. Tā paša iemesla dēļ ir jānosaka arī bāzes tags ... uz servera bāzes tags nav nepieciešams, bet, atverot to no vietējās atmiņas, bāzes tags ļauj lapai darboties tā, it kā tā būtu uz servera, ar visiem resursiem un tā tālāk, bez bojātām saitēm.
AddDefaultCharset UTF-8
Vai arī varat vienkārši mainīt konkrētu failu tipu kodējumu, piemēram, šādi:
AddType text/html;charset=utf-8 html
Padoms, kā apkalpot gan UTF-8, gan Latin-1 (ISO-8859-1) failus, ir UTF-8 failiem piešķirt "text" paplašinājumu, bet Latin-1 failiem "txt.";
AddType text/plain;charset=iso-8859-1 txt
AddType text/plain;charset=utf-8 text
Visbeidzot, apsveriet iespēju dokumentus saglabāt ar Unix, nevis ar mantotajām DOS vai (klasiskajām) Mac sistēmu rindu galotnēm, kas nepalīdz un var kaitēt, jo īpaši vēlāk, kad mēs arvien vairāk attālināsimies no šīm mantotajām sistēmām. HTML dokuments ar derīgu HTML5, UTF-8 kodējumu un Unix rindu galotnēm ir labi padarīts darbs. Šo dokumentu var kopīgot, rediģēt, uzglabāt, lasīt, lasīt, atjaunot un izmantot daudzos kontekstos. Tā ir lingua franca. Tas ir digitālais papīrs.