Encodage des caractères en html
Le principe
En informatique, chaque caractère est codé en binaire et correspond à une série de nombres 0 et 1. Un caractère est traduit sous la forme 0001101. Il existe ainsi plusieurs façons de coder les caractères :
- ASCII
- ASCII a été la première norme de codage de caractères (également appelé jeu de caractères). Il définit 127 caractères alphanumériques différents qui pourraient être utilisés sur Internet. ASCII prend en charge les nombres pris en charge (0-9), les lettres anglaises (AZ), et certains caractères spéciaux comme ! $ + – () @ <>.
- ANSI
- ANSI (Windows-1252) a été le jeu de caractères par défaut pour Windows (jusqu’à Windows 95). Ce jeu a défini 256 caractères différents.
- ISO-8859-1
- ISO-8859-1, une extension ASCII, a été le jeu de caractères par défaut pour HTML 4. Ce jeu a également défini 256 caractères différents.
- UTF-8
- Parce que ANSI et ISO ont été trop limités, le codage des caractères par défaut pour HTML5 est devenu l’Unicode (UTF-8).. UTF-8 est compatible sur toutes les plateformes (Windows, Mac, Unix) et est codé sur 8 à 32 bits ce qui permet de définir un nombre quasi-illimité de caractères
La déclaration d’encodage en HTML5
Pour afficher une page HTML correctement, un navigateur Web doit connaître le jeu de caractères utilisé dans la page. Cette déclaration se fait en HTML5 par la balise meta:
Notion d’entité HTML
Les caractères réservés (comme le signe < qui ouvre une balise en HTML) doivent être remplacés par des entités de caractères.
Par ailleurs, les caractères qui ne sont pas présents sur votre clavier (comme le copyright – ©), peuvent également être remplacés par des entités. Une entité commençe par &(esperluète ou « et commercial ») et se termine par ; (point virgule), exemple < pour le signe <.
Dans l’exemple ci-dessous, les signes < et > ont du être remplacé par des entités pour les éditer comme du contenu texte. Il en est de même pour le caractère éperluète &
Voici le résultat
Les caractères généraux
Voici le résultat
Les monnaies
Voici le résultat
Les symboles scientifiques ou informatiques
Voici le résultat
Les caractères accentués
Voici le résultat