Piste: » outils_de_traduction » wordsend » flex » niamey1 » notes » comment_creer_un_teckit
Comment créer un TECkit
Informations générales
Un fichier TECkit – qu'est-ce que c'est ?
- Un moyen pour transformer un texte d'un encodage de caractères à un autre encodage.
- Souvent utiliser pour convertir un texte dans une police de l'ancienne génération à Unicode.
- Peut être utiliser pour convertir un texte dans un encodage Unicode à un autre encodage Unicode, par exemple d'une orthographe romaine à une orthographe arabe.
- Un fichier .map contient les instructions liants les caractères dans les deux encodages. (Il existe aussi un format .xml qui n'est pas traité ici.)
- Un fichier .tec contient une version compilée du fichier source (.map ou .xml). Certains logiciels n'acceptent que la version .tec; des autres acceptent tous les deux.
Création d'un fichier .map
Il y a plusieurs moyens de créer un fichier .map
- On peut utiliser un editeur de texte.
- Le logiciel Encore2Unicode peut créer un fichier .map brouillon à partir d'une police créée par le système de police Encore. Après on doit éditer ce fichier brouillon pour le finaliser.
- On peut utiliser un ficher Excel « Legacy Mapping Workbook.xls » (par Bob Hallissy de SIL International / NRSI) pour trouver les correspondances entre les caractères d'une police de l'ancienne génération et Unicode, puis mettre ces informations dans un ficher .map.
- On peut utiliser TECkit Mapping Editor (installé sous SIL Converters) pour créer ou modifier les fichiers .map et pour générer les fichiers .tec.
- On peut utiliser TECkit Map Unicode Editor (installé sous SIL Converters) pour créer ou modifier les fichiers .map et pour générer les fichiers .tec. En plus on peut spécifier les polices des deux encodages et voir les correspondances.
Question de normalisation
Avant de commencer, il faut décider si votre mappage TECkit sera FNC ou FND, c'est-à-dire « Forme de normalisation composé » ou« Forme de normalisation décomposé » (anglais: « NFC » ou « NFD ») pour les caractères qui ont plusieurs formes. Voici un exemple: « À » peut être U+00C0 (A avec accent grave) ou U+0041(A) suivi par U+0300 (accent grave) – le premier cas est FNC, le deuxième FND. Par contre, « »(« e » ouvert avec accent grave) n'a qu'un seul encodage – U+025B U+0300 – parce que « e ouvert avec accent grave » n'existe pas en Unicode comme un seul caractère composé. Si le projet a un fichier Keyman (ou un autre moyen de taper les caractères), il sera bon de le suivre dans le choix de FNC ou FND.
Exercice
Pour cet exercice, on va utiliser
- la police de l'ancienne génération DIDBKNOR.TTF, qui se trouve dans le fichier police_didbknor.zip
- le fichier Excel, qui se trouve dans le fichier legacy_mapping_workbook.zip
- le logiciel TECkit Mapping Editor, et
- la FNC.
(1) Double-cliquer sur le fichier DIDBKNOR.TTF. Une fenêtre s'affiche pour montre l'information de cette police.
Dès que la fenêtre reste ouverte (même minimisée) on peut utiliser la police comme si elle soit installé.
(2) Lancer Microsoft Excel et ouvre « Legacy Mapping Workbook.xls ». Ce fichier contient des macros. Si Excel vous offre le choix d'activer les macros, il faut les activer.
Si vous avez désactivé les macros, il faut changer votre configuration et relancer ce ficher Excel.
(3) Du menu « Fichier », choisir « Enregistrer sous », naviguer au dossier désiré et enregistrer le fichier sous un autre nom (« Didbknor Mappage.xls » par exemple).
(4) La feuille « Instructions » contient les instructions en anglais et la traduction en français (en rouge). Suivre les instructions sur le rubrique « Setting up your fonts » (« Configuration de vos polices »).
(5) Du menu « Format », choisir « Style ».
Dans le dialogue qui s'affiche, choisir « Legacy Font ».
and « Modifier »
Sur l'onglet « Police » (« Font ») choisir la police « Didbknor » (qui est la police de cet exercice) et cliquer OK. Maintenant tous texte avec le style « Legacy Font » s'afficheront avec cette police.
Répéter ces étapes pour spécifier la police « Charis SIL » pour le style « Unicode Font », puis cliquer OK pour fermer le dialogue « Style ». La configuration des styles est complète.
(6) Sélectionner la feuille « Legacy Mapping ». Pour chaque rang, la procédure est d'examiner les caractères en colonne D et colonne E. S'ils correspondent, on peut copier le code de colonne C et le mettre in colonne F, en utilsiant « Coller spécial », « Valeur » (parce que colonne C contient une formule et c'est nécessaire d'avoir la valeur). Si le caractère en colonne E ne corresponde pas à celui en colonne D on doit trouver le(s) code(s) nécessaire(s) et le(s) mettre en colonne F pour que les deux caractères correspondent.
S'il y a des rangs consécutifs qu'on voudrait copier, on peut copier plusieurs cellules au même temps. On peut même copier toute la colonne C et la mettre en colonne F (avec « Coller spécial », « Valeur »), puis remplacer les endroits nécessaires en colonne F.
Cliquer en cellule C3, Ctrl+C pour copier, cliquer en cellule F3, cliquer à droite, choisir « Coller spécial », puis « Valuers ».
La valeur de colonne C a été mise en colonne F donnant à colonne H l'information pour TECkit Mapping Editor.
Pour le code x21 (rang 4), les caractères en colonnes D et E ne correspondent pas. Il faut donc trouver les codes Unicode qui correspondent au caractère en colonne E. Le code pour l'iota est U+0269 et pour l'accent aigu U+0301. Cliquer en cellule F4 et taper « U+0269 U+0301 ».
Maintenant colonne F contient les codes Unicode qu'on a tapés et colonne H l'information pour TECkit Mapping Editor. Le caractère Unicode en colonne G doit correspondre à celui de colonne E.
Pour code x22, copier la valeur de colonne C et la mettre en colonne F en utilisant coller spécial.
Pour les codes x23 à x26, mettre les codes de la deuxième colonne du tableau suivant dans colonne F.
| x23 | U+0186 U+0300 |
| x24 | U+025B U+0301 |
| x25 | U+0254 U+0301 |
| x26 | U+0269 U+0300 |
Pour les codes x27 à x29, copier la valeur de colonne C et la mettre en colonne F en utilisant coller spécial. On peut sélectionner les trois cellules et les copier ensemble.
Pour le code x2A, vous pouvez noter qu'on a déjà vu que U+0254 est le code pour le « o » ouvert et U+0300 est le code de l'accent grave. C'est donc U+0254 U+0300 que vous devez entrer dans la colonne F.
Pour le code x2B, le code pour le « n » est U+006E et vous savez déjà le code de l'accent aigu. Mais la forme U+006E U+0301 est la forme décomposée, pour laquelle la forme composée est U+0144.
Pour les codes x2C à x3C, copier les valeurs de colonne C vers colonne F en utilisant coller spécial.
Le code x3D corresponde aux caractères « e », accent tréma et accent double aigu. Le « e » est U+0065, l'accent tréma est U+0308, l'accent double aigu est U+030B. Donc la forme décomposée et U+0065 U+0308 U+030B. Mais la forme composée est U+00EB U+030B parce que U+00EB est « ë ».
Pour les codes x3E à x5D, copier les valeurs de colonne C vers colonne F en utilisant coller spécial.
Pour code x5E, il faut U+025B pour l'epsilon et U+0302 pour l'accent circonflexe.
Pour les codes x5F à x7D, copier les valeurs de colonne C vers colonne F en utilisant coller spécial.
Pour le code x7E, mettre U+0023 dans la colonne F pour obtenir le caractère « # ».
Le code x7F est un cas spécial. Il s'agit du code « DELETE ». Il faut copier le U+007F de colonne C vers colonne F.
Pour le code x80, copier la valeur de colonne C vers colonne F.
Les codes x81, x8D, x8F, x90 et x9D sont indéfinis. On laisse colonne F vide pour eux.
Pour les codes xA1, xC6, xDF et xFF, colonne E est vide. On laisse alors colonne F vide aussi.
Pour les codes x82-x8C, x8E, x91-x94, x96-x9C, x9E, xA4, xA6, xA8, xAB, xAD, xAF, xB3-xB4, xB7-xB9, xBB, xBE, xC0-xC3, xC7-xC8, xCA-xD0, xD2-xDB, xDD-xDE, xE0-xE2, xE4, xE7-xEA, xEC-xF0, xF2-xF5, xF9-xFC et xFE, copier la valeur de colonne C vers colonne F.
Il reste donc les codes dans le tableau suivant. On a déjà vu certains codes. On peut trouver des tableaux de caractères Unicode à: http://www.unicode.org/fr/charts/ . Il y a aussi information sur la feuille « Unicode Data » de ce livre de calcul (mais elle est en anglais et elle date de 2002). On peut trouver l'information pareille en français à http://hapax.qc.ca/UnicodeData-5.0.0.fr.txt .
| code | Unicode | commentaire |
|---|---|---|
| x83 | U+0254 U+0302 | On a vu la valeur Unicode du caractère « o ouvert » pour le code x25 et de l'accent circonflexe pour le code x5E. |
| x95 | U+0026 | |
| x9F | U+0196 U+0301 | On a vu la valeur Unicode de l'iota minuscule (U+0269). Si on cherche pour « 0269 » dans la colonne A de la feuille « UnicodeData », on trouve « 0196 » dans la colonne N (« UC map », c'est-à-dire correspondance majuscule). |
| xA0 | U+00EB | Dans ce cas, U+0065 U+0308 est la forme décomposée et U+00EB est la forme composée. Cet exercice utilise les codes composés, donc on doit choisir U+00EB. |
| xA2 | U+0025 | |
| xA3 | U+025B | On a vu le « e ouvert » pour le code x5E. |
| xA5 | U+0254 | On a vu le « o ouvert » pour le code x83. |
| xA7 | U+01D2 | U+006F U+030C est la forme décomposée, U+01D2 la forme composée. |
| xA9 | U+002B | |
| xAA | U+0196 | |
| xAC | U+01F9 | U+006E U+0300 est la forme décomposée, U+01F9 la forme composée. |
| xAE | U+003D | |
| xB0 | U+014A | |
| xB1 | U+028B U+0300 | |
| xB2 | U+0024 | |
| xB5 | U+002A | |
| xB6 | U+01CE | U+0061 U+030C est la forme décomposée, U+01CE la forme composée. |
| xBA | U+011B | U+0065 U+030C est la forme décomposée, U+011B la forme composée. |
| xBC | U+01D4 | U+0075 U+030C est la forme décomposée, U+01D4 la forme composée. |
| xBD | U+0186 | |
| xBF | U+01B2 | |
| xC4 | U+014B | |
| xC5 | U+0021 | |
| xC9 | U+00F6 U+030B | U+006F U+0308 U+030B est la forme décomposée, U+00F6 U+030B la forme composée. |
| xD1 | U+00F6 U+0302 | U+006F U+0308 U+0302 est la forme décomposée, U+00F6 U+0302 la forme composée. |
| xDC | U+00F6 | U+006F U+0308 est la forme décomposée, U+00F6 la forme composée. |
| xE3 | U+0143 | U+004E U+0301 est la forme décomposée, U+0143 la forme composée. |
| xE5 | U+01F8 | U+004E U+0300 est la forme décomposée, U+01F8 la forme composée. |
| xE6 | U+028B U+0301 | |
| xEB | U+0269 | |
| xF1 | U+00EB U+0302 | U+0065 U+0308 U+0302 est la forme décomposée, U+00EB U+0302 la forme composée. |
| xF6 | U+028B | |
| xF7 | U+002D | |
| xF8 | U+025B U+0300 | |
| xFD | U+0196 U+0300 |
(7) Maintenant les valeurs dans colonne H sont prêts pour coller soit dans TECkit Mapping Editor, soit dans TECkit Mapping Unicode Editor.
TECkit Mapping Unicode Editor posera quelques questions concernant le type de conversion et les polices à utiliser.
Attention! Quand j'ai essayé dans TECkit Map Unicode Editor de choisir la police « Didbknor » (qui était dans la liste) le logiciel a terminé avec erreur. Peut-être il est nécessaire d'avoir la police vraiment installée. En tout cas, on peut cliquer OK pour prendre la police par défaut.
Pour cet exercice, on va utiliser TECkit Mapping Editor. Lancer SIL Converters | TECkit | TECkit Mapping Editor. Il affichera une fenêtre vide.
Il faut ajouter certains renseignements au début de la fichier. La première ligne « EncodingName » est obligatoire. Il faut choisir un nom unique, par exemple, votre organisation plus le nom de la police de l'ancienne génération plus la version du fichier .map.
EncodingName "SIL-Didbknor-1" Contact "mailto:David_Rowe@sil.org" Copyright "© 2009 SIL International. All rights reserved."
Dans votre contexte, vous allez utiliser le nom de votre organisation et l'adresse courriel appropriée.
Après ces renseignements, il faut ajouter les lignes suivantes:
LHSFlags () RHSFlags (ExpectsNFC) pass(Byte_Unicode)
puis coller les informations de colonne H du fichier Excel. Le résultat (avec les codes 0x28..0xF7 omis) sera:
EncodingName "SIL-Didbknor-1"
Contact "mailto:David_Rowe@sil.org"
Copyright "© 2009 SIL International. All rights reserved."
LHSFlags ()
RHSFlags (ExpectsNFC)
pass(Byte_Unicode)
0x20 <> U+0020
0x21 <> U+0269 U+0301
0x22 <> U+0022
0x23 <> U+0186 U+0300
0x24 <> U+025B U+0301
0x25 <> U+0254 U+0301
0x26 <> U+0269 U+0300
0x27 <> U+0027
{0x28..0xF7 omis}
0xF8 <> U+025B U+0300
0xF9 <> U+00F9
0xFA <> U+00FA
0xFB <> U+00FB
0xFC <> U+00FC
0xFD <> U+0196 U+0300
0xFE <> U+00FE
; 0xFF
On peut toujours ajouter les commentaires après un point-virgule (;).
(8) On utilise File | Save (ou bien Ctrl+S) pour enregistrer le fichier .map, puis File | Compile (ou bien Ctrl+K) pour générer le fichier .tec.
S'il y a des erreurs, TECkit Mapping Editor les affichera et il ne créera pas le fichier .tec. S'il n'y a aucune erreur, TECkit Mapping Editor n'affichera rien, mais il créera le fichier .tec.








