Je suis Charlie

Autres trucs

Accueil

Seulement les RFC

Seulement les fiches de lecture

Ève

Unicode 5.1

Première rédaction de cet article le 7 avril 2008


Le consortium Unicode vient d'annoncer la sortie de la version 5.1 de la célèbre norme de jeu de caractères. 1 624 caractères de plus, permettant à Unicode de dépasser les 100 000 caractères.

Parmi les nouveaux venus, un certain nombre de caractères arabes (notamment pour écrire le persan) ou cyrilliques, le Eszett allemand en majuscule (la précédente majuscule de ß était la chaîne SS, ce sera désormais le caractère Unicode U+1E9E, que votre navigateur ne sait probablement pas encore afficher), l'alphabet Sundanese (que je ne connaissais pas), d'autres alphabets nouveaux comme le Cham, les caractères du Mah-jong (cf. le roman « Sous les vents de Neptune » de Fred Vargas), et plein d'autres caractères rigolos comme U+2B3D, « LEFTWARDS TWO-HEADED ARROW WITH TAIL WITH DOUBLE VERTICAL STROKE » ou U+2E2A, « TWO DOTS OVER ONE DOT PUNCTUATION ».

La majuscule du Eszett a suscité bien des controverses (cf. http://de.wikipedia.org/wiki/Versal-Eszett), certains germanophones expliquant que cette lettre n'existe pas. On peut consulter la proposition initiale en http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3227.pdf, avec des exemples d'utilisation, pris par exemple sur des pierres tombales.

Le programme de conversion de la base Unicode en SQL est un excellent outil pour explorer cette nouvelle version :

ucd=> SELECT count(*) AS Total FROM Characters;                                        total  
--------
 100713
(1 row)

ucd=> SELECT To_U(codepoint) AS Codepoint, name FROM 
                Characters WHERE version = '5.1';
 codepoint |                                 name                                  
-----------+-----------------------------------------------------------------------
 U+1E9E    | LATIN CAPITAL LETTER SHARP S
 U+A66E    | CYRILLIC LETTER MULTIOCULAR O
...
 U+372     | GREEK CAPITAL LETTER ARCHAIC SAMPI
 U+373     | GREEK SMALL LETTER ARCHAIC SAMPI
...
 U+520     | CYRILLIC CAPITAL LETTER EL WITH MIDDLE HOOK
 U+521     | CYRILLIC SMALL LETTER EL WITH MIDDLE HOOK
 U+522     | CYRILLIC CAPITAL LETTER EN WITH MIDDLE HOOK
 U+523     | CYRILLIC SMALL LETTER EN WITH MIDDLE HOOK
 U+606     | ARABIC-INDIC CUBE ROOT
 U+607     | ARABIC-INDIC FOURTH ROOT
 U+608     | ARABIC RAY
...

Version PDF de cette page (mais vous pouvez aussi imprimer depuis votre navigateur, il y a une feuille de style prévue pour cela)

Source XML de cette page (cette page est distribuée sous les termes de la licence GFDL)