Qu’est-ce que le texte ASCII et comment est-il utilisé ?
ASCII est un acronyme que vous avez peut-être entendu en rapport avec le texte informatique, mais c’est un terme qui tombe rapidement en désuétude grâce à un nouveau venu plus puissant. Mais qu’est-ce que l’ASCII et à quoi sert-il ?
Que signifie ASCII ?
Peut-être que l’endroit le plus simple pour commencer est l’acronyme lui-même, alors développons-le :
UNE américain S standard C ode à je informations je échange
Cette bouchée d’une phrase ne donne pas vraiment l’image complète, mais certaines parties offrent immédiatement des indices, notamment les deux premiers mots. L’ASCII est une norme américaine dont la signification deviendra bientôt évidente.
« Code pour l’échange d’informations » suggère que nous parlons d’un format pour le transfert de données dans les deux sens. Plus précisément, l’ASCII traite des données textuelles : des caractères constituant des mots dans un langage typiquement lisible par l’homme.
L’ASCII résout le problème de l’attribution de valeurs aux lettres et autres caractères afin que, lorsqu’ils sont stockés sous forme de uns et de zéros dans un fichier, ils puissent être retransformés en lettres lors de la lecture ultérieure du fichier. Si différents systèmes informatiques s’entendent sur le même code à utiliser, ces informations peuvent être échangées de manière fiable.
L’histoire de l’ASCII
Parfois appelé US-ASCII, ASCII était une innovation américaine développée dans les années 1960. La norme a subi de nombreuses révisions depuis, principalement en 1977 et 1986, lorsque ASCII a été mis à jour pour la dernière fois.
Des extensions et des variantes se sont appuyées sur l’ASCII au fil des ans, principalement pour tenir compte du fait que l’ASCII omet de nombreux caractères utilisés, voire requis, par des langues autres que l’anglais américain. L’ASCII ne prend même pas en charge le symbole monétaire britannique (« £ »), bien que la livre sterling soit présente dans Latin-1, une extension 8 bits développée dans les années 1980, qui code également plusieurs autres devises.
L’ASCII a été considérablement étendu et a été remplacé par Unicode, une norme beaucoup plus complète et ambitieuse, qui est discutée ci-dessous. En 2008, Unicode a dépassé ASCII en popularité pour l’utilisation en ligne.
Quels caractères l’ASCII représente-t-il ?
Pour un ordinateur, la lettre « A » est tout aussi inconnue que la couleur violette ou le sentiment de jalousie. Les ordinateurs traitent les uns et les zéros, et c’est aux humains de décider comment utiliser ces uns et ces zéros pour représenter des nombres, des mots, des images et tout le reste.
Vous pouvez considérer l’ASCII comme le code Morse du monde numérique – la première tentative, en tout cas. Alors que le code Morse est utilisé pour représenter seulement 36 caractères différents (26 lettres et 10 chiffres), l’ASCII a été conçu pour représenter jusqu’à 128 caractères différents dans 7 bits de données.
L’ASCII est sensible à la casse, ce qui signifie qu’il représente 52 lettres majuscules et minuscules de l’alphabet anglais. Avec les mêmes 10 chiffres, c’est environ la moitié de l’espace utilisé.
La ponctuation, les symboles mathématiques et typographiques occupent le reste et une collection de caractères de contrôle, qui sont des codes spéciaux non imprimables avec des significations fonctionnelles – voir ci-dessous pour plus d’informations.
Voici quelques caractères typiques codés en ASCII :
010 0001 | 33 | ! |
011 0000 | 48 | |
011 1001 | 57 | 9 |
011 1011 | 59 | ; |
100 0001 | 65 | UNE |
100 0010 | 66 | B |
101 1010 | 90 | Z |
101 1011 | 91 | |
110 0001 | 97 | une |
110 0010 | 98 | b |
111 1101 | 125 | } |
A noter que les valeurs choisies ont quelques propriétés utiles, notamment :
- Les lettres d’une même casse peuvent toujours être triées numériquement puisqu’elles sont dans l’ordre. Par exemple, A a une valeur inférieure à B, qui a une valeur inférieure à Z.
- Les lettres de différentes casses sont décalées d’exactement 32. Cela rend très facile la traduction entre les minuscules et les majuscules puisqu’un seul bit doit être commuté pour chaque lettre, dans un sens ou dans l’autre.
Caractères de contrôle
Outre les lettres, la ponctuation et les chiffres, l’ASCII peut représenter un certain nombre de caractères de contrôle, des points de code spéciaux qui ne produisent pas de sortie à un seul caractère mais fournissent à la place des significations alternatives sur les données à tout ce qui pourrait les consommer.
Par exemple, ASCII 000 1001 est le caractère de tabulation horizontale. Il représente l’espace que vous obtiendrez lorsque vous appuyez sur la touche TAB. Vous ne verrez généralement pas ces caractères directement, mais leur effet sera souvent affiché. Voici d’autres exemples :
000 1001 | 9 | Onglet horizontal |
000 1010 | dix | Saut de ligne |
001 0111 | 23 | Bloc de fin de transmission |
Et les autres personnages ?
L’ASCII a connu un énorme succès au début de l’informatique, car il était simple et largement adopté. Cependant, dans un monde avec une perspective plus internationale, un seul système d’écriture ne suffira pas. Les communications modernes doivent être possibles en français, en japonais, en fait, dans n’importe quelle langue dans laquelle nous pourrions vouloir stocker du texte.
Le jeu de caractères Unicode peut traiter un total de 1 112 064 caractères différents, bien que seulement environ un dixième de ceux-ci soient actuellement définis. Cela peut sembler beaucoup, mais l’encodage vise non seulement à prendre en charge des dizaines de milliers de caractères chinois, il couvre également les emoji (près d’un millier et demi) et même les systèmes d’écriture éteints tels que Jurchen.
Unicode a reconnu la prédominance de l’ASCII dans son choix des 128 premiers caractères : ils sont exactement les mêmes que l’ASCII. Cela permet aux fichiers codés ASCII d’être utilisés dans des situations où Unicode est attendu, offrant une compatibilité descendante.
Résumé
Le texte ASCII représente les 26 lettres de l’alphabet anglais, avec des chiffres, des signes de ponctuation et quelques autres symboles. Il a très bien rempli son rôle pendant la majeure partie d’un demi-siècle,
Il a maintenant été remplacé par Unicode, qui prend en charge un grand nombre de langues et d’autres symboles, y compris les emoji. UTF-8 est, à toutes fins utiles, l’encodage qui doit être utilisé pour représenter les caractères Unicode en ligne.