Jeux de caractères
1 Introduction
Ce document, pour le moment encore incomplet, a pour vocation de rassembler mes connaissances en ce qui concerne les jeux de caractères codés.
2 Définitions
- caractère
- (character)) c’est une unité de représentation textuelle de donnée. La lettre A par exemple, ou le chiffre 5 ou le symbole +.
- glyphe
- (glyph) c’est la représentation dessinée du caractère. Un ensemble de glyphes, c’est une fonte (font).
- code
- (code), c’est un nombre représentant un caractère.
- jeux de caractères codés
- (coded character set, codeset, charset, codepage) c’est une table de correspondance entre des codes et des caractères.
- point de codage
- (codepoint) c’est un nombre faisant partie de l’ensemble dans lequel les codes des caractères d’un codeset sont choisis. Tous les points de codage ne correspondent pas nécessairement à des caractères.
- encodage
- (encoding) c’est une manière de décoder une suite de bytes en une séquence de caractères (ou inversément d’encoder une séquence de caractères en une suite de bytes).
- multiplet
- (byte) c’est l’unité élémentaire de stockage utilisée par un encodage.
3 Caractère et glyphe
La relation entre caractère et glyphe n’est pas toujours aussi simple que la définition peut le laisse croire.
On peut avoir des glyphes qui représentent plusieurs caractères (« fi » dans la fonte utilisée pour ce document est un seul glyphe représentant vraissemblablement deux caractères ; et « A » pourrait être le glyphe à la fois pour la lettre latine A majuscule et pour la lettre grecque alpha majuscule).
On peut avoir plusieurs glyphes pour un même caractère. Dans des fontes différentes (« A » et « A » par exemple) ou dans une même fonte (