Diacritique

Infos
Un (signe) diacritique (du grec διακριτικός diacritikós, « qui distingue ») est un signe placé sur (diacritique suscrit), sous (diacritique souscrit), dans ou travers (diacritique inscrit), après (diacritique adscrit), devant (diacritique prescrit) ou tout autour (diacritique circumscrit) d'un graphème pour :
- en modifier la valeur phonétique ;
- permettre une lecture plus précise (les diacritiques ne sont alors pas obligatoires) ;
Diacritique

Un (signe) diacritique (du grec διακριτικός diacritikós, « qui distingue ») est un signe placé sur (diacritique suscrit), sous (diacritique souscrit), dans ou travers (diacritique inscrit), après (diacritique adscrit), devant (diacritique prescrit) ou tout autour (diacritique circumscrit) d'un graphème pour :
- en modifier la valeur phonétique ;
- permettre une lecture plus précise (les diacritiques ne sont alors pas obligatoires) ;
- ou éviter une ambiguïté entre des homographes. Il existe aussi des lettres diacritiques, muettes et nécessairement écrites à côté de la lettre qu'elles modifient. Accessoirement, elles ont pu devenir un signe diacritique (cf. Umlaut et Rond en chef). Au même titre que les ligatures et que les lettres supplémentaires inventées après coup, l'ajout de diacritiques étend le nombre de graphèmes d'une écriture. Dans de nombreux cas, la lettre diacritée n'est pas considérée comme un graphème indépendant mais comme un allographe, c'est-à-dire une autre version écrite de la lettre simple. La lettre diacritée n'intervient alors pas dans le classement alphabétique. À titre d'exemple, l'accent aigu du français modifie la valeur phonétique d'un e, généralement prononcé (e « muet ») : é vaut alors . L'accent grave sur un a, cependant, ne permet que de distinguer des homographes : la (article) ~ (adverbe de lieu), valant tous deux en français de France (mais ils se distinguent à l'oral dans d'autres dialectes du français). On ne considère cependant pas é et à comme des lettres indépendantes de e et a. Le français ne connaît pas de diacritique servant à affiner la lecture : ils sont tous obligatoires. Le roumain utilise les diacritiques optionellement mais de façon intensive pour donner une lecture plus précise. Cette langue ne possède aucun accent sur les lettres et chaque phonème correspond à une seule lettre quel que soit le mot. Ce type-là existe en arabe, où les voyelles ne sont pas écrites ; dans les ouvrages didactiques ou religieux, on peut les noter sous forme de diacritiques. La fatḥa, un trait légèrement oblique suscrit, sert à indiquer la présence d'une voyelle : le mot عدل se lit ʿadl (‘adl) mais se translittère ʿdl. Pour en préciser la lecture, on peut ajouter une fatḥa : عَدل. Chaque écriture a pu développer ses propres diacritiques :
- diacritiques de l'alphabet latin (celui-ci servant aussi à la romanisation, c'est l'alphabet qui connaît le plus de signes diacritiques) :
- cf. aussi diacritiques de l'alphabet vietnamien (quốc ngữ),
- les diacritiques utilisés en français, leur utilisation et les règles d'emploi, sont traités à part ;
- diacritiques de l'alphabet grec ;
- diacritiques de l'alphabet cyrillique ;
- diacritiques de l'alphabet arabe ;
- diacritiques de l'alphabet hébreu ;
- diacritiques de la devanâgarî ;
- diacritiques des syllabaires japonais ;
- diacritiques de l'alphabet tibétain ;
- diacritiques de l'alphabet turc.

Transcription des diacritiques en informatique

Transcriptions en ASCII

Le jeu de caractères ASCII standard, tributaire du système octal très utilisé dans les débuts de l'informatique, comporte 128 codes, dont 95 caractères affichables, parmi lesquels 52 caractères alphabétiques, les 26 lettres de l'alphabet latin en casses capitale et minuscule (ou bas-de-casse), mais pas de lettre accentuée. Il existe plusieurs jeux de caractères dénommés souvent ASCII étendu, qui comptent 256 codes, les 128 codes supplémentaires servant notamment à représenter certaines voyelles et consonnes de l'alphabet latin comportant des signes diacritiques. Les premiers jeux de caractères étendus, dits pages de code, furent créés par la société IBM pour ses micro-ordinateurs "PC"; dans ce système, une page de code ou "CP" (codepage) est spécifiée par un nombre et associée à un ensemble particulier: la "CP437" est l'ensemble "américain" ou "graphique"; la CP850 est l'ensemble "multilingue européen". Avec l'apparition des interfaces graphiques (Apple Macintosh, Microsoft Windows, X Window, etc.), les caractères «graphiques» des pages de code n'ayant plus lieu d'être un plus grand nombre de codes étendus ont servi à noter des caractères à signes diacritiques. Les ensembles créés conjointement par IBM et par la société Microsoft pour leurs deux plateformes graphiques, Windows et OS/2 "Présentation Manager", servirent de base pour une série de jeux de caractères ISO, la norme ISO 8859 qui se décline en quinze ensembles:
-8859-1 à 8859-4, 8859-9 à 8859-10, 8859-13 à 8859-15: "Latin1" à "Latin9", variantes de l'alphabet latin avec caractères à diacritiques de divers pays et régions (France, Italie, Espagne, Albanie, Turquie, pays scandinaves, Hongrie, Pologne, etc.);
-8859-6: alphabets latin et arabe;
-8859-7: alphabets latin et grec;
-8859-8: alphabets latin et hébreu;
-8859-11: alphabet thaïlandais. Lorsque l'on ne dispose pas d'un clavier d'ordinateur français ou qu'une application ne supporte pas les caractères accentués, on peut rendre ces diacritiques en ajoutant un caractère avant et/ou après la lettre à accentuer. Cela peut donner par exemple : : Le garc, on ne pouvait 'e`tre l`a cet e'te'. Voir aussi les exemples dans chaque article sur les diacritiques, ainsi que dans l'article VIQR.

Transcriptions en unicode

Le Consortium Unicode, qui rassemble la plupart des grands noms de l'informatique, fut créé au milieu des années 1980 pour suppléer au problème de l'incompatibilité des divers codages de caractères développés pour diverses plateformes matérielles et logicielles (EBCDIC et système "codepage" d'IBM/Microsoft, jeux propres à Apple, à HP, jeux Unix, etc.) et en liaison avec le développement de la norme ISO 10646. Le but initial était de développer un système de codage non plus sur 8 bits mais sur 16 bits, ce qui permet le codage de 2^16 soit 65 536 caractères. Actuellement, la norme a été étendue au-delà des 16 bits, car la variété des caractères et symboles (notamment les symboles mathématiques et scientifiques) à représenter excède de beaucoup cette limite, la seule écriture chinoise avec ses diverses variantes dépassant déjà cette limite de 65 536. Le principe retenu a été de grouper des ensembles ou sous-ensembles de caractères et symboles par «pages» de 256 codes ou «blocs»; par exemple, les blocs 0 à 3 correspondent à quatre sous-ensembles de l'alphabet latin, le bloc 6 aux «signes diacritiques combinés» associables au caractères de l'alphabet latin, le bloc 7 aux caractères grecs et coptes, le bloc 11 à l'hébreu, les blocs 12 à 14 aux alphabets arabe et cyriaque, le bloc 58 aux symboles monétaires, les blocs 63, 73, 77 et 78 aux symboles mathématiques, etc. Dans sa version finale le système unicode 16 bits n'a pas retenu les écritures pictographiques, qui répondent à une autre norme. Il y a trois manières d'insérer un «unicode» dans un document:
-par valeur;
-par numéro d'ordre;
-par "alias". L'inscription par valeur consiste à placer dans le document la séquence numérique de 16 bits qui correspond à un caractère donné. Les méthodes par numéro d'ordre sont utilisées dans certains types de documents seulement, notamment dans les fichiers de format RTF et HTML ou assimilés (XML, PHP notamment). Dans tous les cas, le principe est le même: faire précéder ou entourer le numéro ou l'alias d'une «séquence d'échappement». Dans les documents HTML ont place la séquence "&" (alias) ou "&" (numéro) au début et le signe ";" à la fin de la séquence, et entre les deux le numéro d'ordre ou l'alias. Par exemple, les séquences "&
-26;" et "&" permettent de représenter le signe «et commercial» («ampersand») => "&" ==
Sujets connexes
Accent aigu   Accent grave   Alphabet   Alphabet arabe   Alphabet latin   American Standard Code for Information Interchange   Années 1980   Apple, Inc.   Bas-de-casse   Capitale et majuscule   Caractère (informatique)   Casse (typographie)   Classement alphabétique   Consonne   Consortium Unicode   Diacritiques de l'alphabet arabe   Diacritiques de l'alphabet cyrillique   Diacritiques de l'alphabet grec   Diacritiques de l'alphabet hébreu   Diacritiques de l'alphabet latin   Diacritiques de l'alphabet tibétain   Diacritiques des syllabaires japonais   Diacritiques utilisés en français   Environnement graphique   Français   Graphème   Hewlett-Packard   IBM PC   ISO 8859   International Business Machines Corporation   Lettre supplémentaire   Ligature (typographie)   Macintosh   Microsoft   Microsoft Windows   OS/2   Organisation internationale de normalisation   Page de code   Rich Text Format   Romanisation (écriture)   Rond en chef   Roumain   Système octal   Typographie   Umlaut   Voyelle   X Window System  
#
Accident de Beaune   Amélie Mauresmo   Anisocytose   C3H6O   CA Paris   Carole Richert   Catherinettes   Chaleur massique   Championnat de Tunisie de football D2   Classement mondial des entreprises leader par secteur   Col du Bonhomme (Vosges)   De viris illustribus (Lhomond)   Dolcett   EGP  
^