logo Maarch
Quelles informations définissent le format ?

« Il n’existe pas de référentiel universel des formats de fichier »

Dans le cadre de la conservation des documents numériques, l’information de format doit fournir toutes les caractéristiques nécessaires pour garantir la pérennité du contenu au sein du système d’archivage électronique et fournir aux utilisateurs les éléments pour restituer l’information contenue.

Ceci inclut principalement le nom du format et sa version, dont découlent son origine, sa nature ouverte ou normalisée, comment obtenir sa spécification, comment l’exploiter.

Pour corser le problème, certains documents utilisent des formats composites, c’est-à-dire qu’ils comportent plusieurs flux utilisant chacun leur convention et pouvant potentiellement être encodé selon diverses normes acceptées par le format composite. Certains de ces formats de flux pourront être ouverts et/ou normalisés mais d’autres non. C’est le cas des fichiers multimédia vidéo, qui contiennent des flux vidéo, audio, des textes pour les sous-titres, des menus, etc. Chaque flux doit être encodé selon un format pérenne pour que le format du conteneur multimédia soit considéré lui-même comme pérenne. Pour les formats conteneur, il faut donc posséder aussi des informations sur chacun des flux contenus.

Comment identifier les formats ?

Il n’existe pas de référentiel universel des formats de fichier.

Chaque organisme qui souhaite encoder de l’information numérique est libre d’utiliser un format existant – dans la mesure où il possède le droit de l’utiliser s’il n’est pas ouvert – et d’en créer un nouveau pour répondre à de nouvelles exigences techniques ou commerciales. Nous avons vu que l’archivage électronique requiert la conservation de l’information dans des formats pérennes; cette restriction implique qu’il doit être possible de lister de tels formats à un moment donné.

Mais il n’existe aucun organisme national ou international en charge du référencement des formats de données numériques. Les spécifications des formats ouverts et/ou normalisés sont déposées auprès des autorités compétentes dans leurs domaines respectifs : ISO pour les normes industrielles, W3C pour les standards du web, IANA pour l’assignation des identifiants de ressources partagées pour l’interopérabilité de l’internet, etc. Tous ces organismes gèrent leurs référentiels, mais ne font aucun rapprochement et publient pas de référentiel commun.

Comment alors font les systèmes d’information pour reconnaître les formats qu’ils doivent exploiter, et par extension comment le système d’archivage peut-il obtenir ces informations ?

Il existe plusieurs méthodes employées par les systèmes d’exploitation et logiciels, qui peuvent globalement être rangées dans deux catégories : celles qui se basent sur des informations externes au contenu (des métadonnées) et celles qui utilisent des signatures internes en reconnaissant le format d’après la structuration d’une partie du contenu.