Le 11 octobre a vu la sortie d'une nouvelle version du jeu de
caractères
Pour explorer plus facilement la grande base
% wget http://www.unicode.org/Public/zipped/6.0.0/UCD.zip
% wget http://www.unicode.org/Public/zipped/6.0.0/Unihan.zip
et les
ucd=> SELECT count(*) AS Total FROM Characters;
total
--------
109449
Unicode aproche donc désormais les 110 000 caractères. Conclusion de
cet élargissement, la majorité des caractères, pour la première fois
dans l'histoire d'Unicode, est désormais en dehors du
ucd=> SELECT count(*) FROM Characters where codepoint > 65535;
count
-------
54854
ucd=> SELECT count(*) FROM Characters where codepoint <= 65535;
count
-------
54595
Cette nouvelle version en a apporté combien de caractères ?
ucd=> SELECT version,count(version) FROM Characters
GROUP BY version ORDER BY version;
version | count
---------+-------
...
5.0 | 1369
5.1 | 1624
5.2 | 6648
6.0 | 2088
Donc, une version moyenne, avec 2 088 caractères nouveaux.
Que sont ces nouveaux caractères ? Ils viennent des « nouvelles » écritures comme le
ucd=> SELECT To_U(codepoint) AS Codepoint, name FROM Characters
WHERE version = '6.0';
...
U+1F4A3 | BOMB
U+1F300 | CYCLONE
U+1F302 | CLOSED UMBRELLA
U+1F303 | NIGHT WITH STARS
U+1F304 | SUNRISE OVER MOUNTAINS
U+1F305 | SUNRISE
U+1F306 | CITYSCAPE AT DUSK
(Vous pouvez aussi regarder à quoi ils ressemblent.)
Pour une idée des discussions suscitées, voir l'excellent
article de Roozbeh Pournader, l'expert Unicode de
l'
Il n'y a pas que des ajouts, il y a aussi des changements. Unicode
a des règles de stabilité qui empêchent, par exemple, le retrait d'un
caractère et la réaffectation de son point de code. Mais ces règles
n'empêchent pas des changements comme l'attribution d'un caractère à
une nouvelle catégorie car l'ancienne classification était
erronée. C'est ainsi que deux caractères
ucd=> SELECT To_u(codepoint), name, category FROM Characters
WHERE codepoint=x'19DA'::Integer;
to_u | name | category
--------+----------------------------+----------
U+19DA | NEW TAI LUE THAM DIGIT ONE | No
Résultat, il voyage en sens inverse, des
Autorisés vers les Interdits. Cela a suscité un débat vif dans la
liste idnabis. Fallait-il suivre Unicode et
accepter que des noms de domaines légaux deviennent illégaux ? Cela
remettrait en cause la stabilité des IDN. Ou bien fallait-il
le mettre dans les exceptions prévues par la section 2.7 du