Je suis Charlie

Autres trucs

Accueil

Seulement les RFC

Seulement les fiches de lecture

Ève

Au travail sur le .تونس

Première rédaction de cet article le 28 avril 2010
Dernière mise à jour le 21 juin 2010


Dans le cadre du programme d'enregistrement d'IDN dans la racine du DNS, la Tunisie (via l'ATI) a demandé la création d'un .تونس, équivalent en caractères arabes du .tn. Le travail se fait en partenariat avec l'AFNIC, d'où mon implication.

Pourquoi des IDN en écriture arabe sont-ils nécessaires ? D'une manière générale, tout humain a droit d'utiliser les caractères auquel il est habitué pour écrire des noms de domaine. Mais c'est encore plus important en arabe à cause de l'écriture de droite à gauche. Un FQDN mixte (caractères latins et arabes) serait très déroutant pour l'utilisateur, une partie allant de gauche à droite et l'autre en sens inverse. D'autant plus que le point, utilisé pour séparer les composants d'un nom de domaine, n'a pas de directionnalité dans l'algorithme bidi d'Unicode (Unicode Standard Annex #9).

Maintenant, les tunisiens ont-ils vraiment « besoin » des domaines en arabe ? On pourrait croire que non puisque la quasi-totalité des tunisiens qui savent lire et écrire maitrisent autant l'alphabet latin que l'arabe. Mais il faut aussi penser aux arabes non tunisiens qui consulteront des sites Web en .تونس. Et, d'une manière générale, l'administration tunisienne évolue peu à peu vers une plus grande « arabisation », justifiant que l'adresse (l'URL) utilise l'écriture arabe, comme le contenu.

Ce projet a déjà fait l'objet d'articles. Actuellement, la chaîne de caractères تونس (xn--pgbs0dh en Punycode, cf. RFC 3492) a été acceptée par l'ICANN, il reste :

  • À obtenir qu'elle soit mise dans la racine, ce qui va prendre du temps. Cela dépend de l'ICANN et du gouvernement états-unien, qui a un contrôle exclusif sur le contenu de la racine.
  • À enregistrer des noms en écriture arabe sous .تونس. Les caractères acceptés n'ont pas été annoncés mais il serait logique qu'ils soient ceux du RFC 5564, qui sont ceux de la langue arabe (je rappelle que langue et écriture sont deux choses différentes ; à noter au passage qu'il y a très peu de berbérophones en Tunisie, ce qui simplifie la question).

Tiens, au fait, comment écrire le nom de ce domaine ? .تونس ou bien تونس. ? Le problème est d'autant plus complexe que ce n'est pas réglé en caractères latins non plus. Le marketing écrit plutôt .FR et les techniciens FR. (le point représentant la racine, qui est à droite, et c'est en outre la syntaxe qu'accepte dig). Mais l'écriture de droite à gauche ajoute un nouveau niveau de perplexité.

Et les problèmes techniques ? En fait, en utilisant des techniques récentes (langage de programmation Python, SGBD PostgreSQL) qui sont Unicode depuis longtemps, il n'y a pas grand'chose à faire. Unicode est compliqué conceptuellement mais, en pratique, le programmeur qui choisit les bons outils n'a guère de travail supplémentaire. Toutefois, tout n'est pas encore parfait et, comme on peut le voir sur cette copie d'écran, si le terminal a bien accepté l'UTF-8, il a par contre affiché le texte arabe dans le mauvais sens... (Avertissement : il ne s'agit évidemment pas des noms de domaines réels, c'est une base de test.)

Version PDF de cette page (mais vous pouvez aussi imprimer depuis votre navigateur, il y a une feuille de style prévue pour cela)

Source XML de cette page (cette page est distribuée sous les termes de la licence GFDL)