logo Maarch
Référentiels et méthodes d’identification

Pour qu’un système d’information puisse restituer l’information à partir d’un contenu de données binaire, il doit connaître le format d’encodage.

Il existe deux grandes catégories d’information de représentation :

Celles qui se basent sur des informations externes au contenu (des métadonnées) et celles qui utilisent des signatures internes en reconnaissant le format d’après la structuration d’une partie du contenu.

L’extension de fichier

L’extension de nom de fichier est un exemple de signature externe. Le système Windows de Microsoft l’utilise par exemple afin de déterminer via à un registre interne le logiciel à utiliser par défaut pour en représenter le contenu. Parfois le système apporte cette information par défaut, sinon charge au logiciel tiers lors de son installation de s’inscrire au registre comme capable d’ouvrir les fichiers tels ou tels types.

Il va sans dire que cette mécanique présente plusieurs inconvénients majeurs :

Tout d’abord il est impossible de déterminer le format sans que l’information de nom de fichier soit disponible. C’est incompatible avec des échanges de données au travers de protocoles tels que http par exemple, sans transmettre des en-têtes de fichiers complémentaires.

Ensuite cette information est partielle, car l’extension de fichier n’est pas universelle, elle potentiellement peut être utilisée par plusieurs logiciels ou versions d’un même format. Le format PDF par exemple, existe à ce jour dans 30 versions, dont certaines sont normalisées et d’autres non, et qui seront tous porteurs d’une extension « pdf ».

Enfin, l’information peut être modifiée par simple renommage du fichier. Il suffit de remplacer l’extension « docx » d’un format Microsoft Word par « zip » pour pouvoir l’ouvrir avec un logiciel de compression et en voir les fichiers contenus. Remplacez l’extension « pdf » d’un document Adobe par « txt » et vous empêchez les utilisateurs de l’exploiter facilement.

L’extension de nom de fichier est donc à réserver aux systèmes d’exploitation, qui possèdent un système de fichiers et qui tiennent un registre des applications utilisables par défaut pour leur représentation.

Le type MIME

Il s’agit de l’identification du format d’un contenu en deux parties utilisé à l’origine par le standard Multipurpose Internet Mail Extensions (MIME) ou Extensions multifonctions du courrier Internet pour définir l’encodage du contenu ou des en-têtes des courriers électroniques non ASCII.

Ce système a été étendu par la suite à d’autres protocoles comme HTTP. L’IANA maintient un registre des media types et des codages de caractères. Leur liste est accessible publiquement sur Internet à l’adresse http://www.iana.org/assignments/media-types/media-types.xhtml

Un type MIME est composé d’au moins deux parties :

Un type et un sous-type accompagnés d’un ou plusieurs autres champs au besoin. Par exemple, les sous-types du type « text » ont un champ optionnel « charset » indiquant le codage des caractères.

Les types MIME sont : audio, image, message (courriel), model (3D), multipart (contenu de courriel), text, video, application et vnd pour les types spécifiques à des éditeurs. Le sous-type précise le format, et dépend du type.

Ci-dessous quelques exemples de types MIME :

application/pdf
application/vnd.openxmlformats-officedocument.wordprocessingml.document
application/xml
application/zip
application/octet-stream
audio/mpeg
audio/flac
image/gif
image/jpeg
image/png
text/html
text/csv
text/plain
video/mpeg
video/mp4

Le type MIME est déterminé par un composant logiciel livré avec le système d’exploitation, le logiciel ou l’environnement d’exécution d’un langage de programmation. Il utilise les nombres magiques (« magic numbers ») des contenus pour les lier à des types et sous-types au travers d’une base de données (« magic database »). La détection du format est ainsi réalisée grâce à une signature interne qui fournit le nombre magique, ce qui est déjà un point positif car elle ne nécessite aucune information externe.

Par contre, le type MIME reste assez imprécis car il ne permet souvent pas de différencier les versions des formats ni l’encodage multimédia par exemple. De plus la base de données des nombres magiques ne constitue pas un référentiel contrôlé; Elle existe dans de nombreuses versions produites par des organisations ou communautés diverses et n’est officiellement enregistrée auprès d’aucune autorité.

Le type MIME est adapté à la représentation du contenu dans les messages électroniques et les interfaces web, pas à l’archivage.

Les registres de formats pour l’archivage

Il existe plusieurs projets de registre des formats numériques destinés à la conservation des données numériques, initiés par des organismes publics de différentes nationalités. Certains ont été abandonnés et d’autres sont toujours actifs.

Le Global Digital Format Registry (GDFR ou Registre Global des Formats Numériques) était un projet de la Bibliothèque de l’Université de Harvard qui a été abandonné à la fin des années 2000 (cf http://library.harvard.edu/preservation/digital-preservation_gdfr.html).

La Bibliothèque du Congrès aux Etats-Unis propose des méthodes de classification des contenus, de caractérisation et de planification des conversions basées sur un référentiel décrivant assez précisément plus de 400 formats. (cf http://www.nationalarchives.gov.uk/PRONOM)

Les Archives Nationales du Royaume-Uni publient depuis 2002 le référentiel PRONOM, qui reste à ce jour le seul registre public et opérationnel dans le monde, en mettant à disposition de la communauté des outils (DROID) et méthodes pour assurer l’identification et la qualification des formats. Chaque format possède notamment un identifiant unique universel, appelé puid, qui facilite la gestion des ressources. (cf http://www.digitalpreservation.gov/formats)

Le Unified Digital Format Registry (UDFR) est un projet développé par l’Université de Californie, qui tente d’unifier les ressources des registres PRONOM et GDFR dans un projet open-source supporté par la communauté. (cf http://www.udfr.org)