Quelles informations définissent le format ?

« Il n’existe pas de référentiel universel des formats de fichier »

Dans le cadre de la conservation des documents numériques, l’information de format doit fournir toutes les caractéristiques nécessaires pour garantir la pérennité du contenu au sein du système d’archivage électronique et fournir aux utilisateurs les éléments pour restituer l’information contenue.

Ceci inclut principalement le nom du format et sa version, dont découlent son origine, sa nature ouverte ou normalisée, comment obtenir sa spécification, comment l’exploiter.

Pour corser le problème, certains documents utilisent des formats composites, c’est-à-dire qu’ils comportent plusieurs flux utilisant chacun leur convention et pouvant potentiellement être encodé selon diverses normes acceptées par le format composite. Certains de ces formats de flux pourront être ouverts et/ou normalisés mais d’autres non. C’est le cas des fichiers multimédia vidéo, qui contiennent des flux vidéo, audio, des textes pour les sous-titres, des menus, etc. Chaque flux doit être encodé selon un format pérenne pour que le format du conteneur multimédia soit considéré lui-même comme pérenne. Pour les formats conteneur, il faut donc posséder aussi des informations sur chacun des flux contenus.

Comment identifier les formats ?

Il n’existe pas de référentiel universel des formats de fichier.

Chaque organisme qui souhaite encoder de l’information numérique est libre d’utiliser un format existant – dans la mesure où il possède le droit de l’utiliser s’il n’est pas ouvert – et d’en créer un nouveau pour répondre à de nouvelles exigences techniques ou commerciales. Nous avons vu que l’archivage électronique requiert la conservation de l’information dans des formats pérennes; cette restriction implique qu’il doit être possible de lister de tels formats à un moment donné.

Mais il n’existe aucun organisme national ou international en charge du référencement des formats de données numériques. Les spécifications des formats ouverts et/ou normalisés sont déposées auprès des autorités compétentes dans leurs domaines respectifs : ISO pour les normes industrielles, W3C pour les standards du web, IANA pour l’assignation des identifiants de ressources partagées pour l’interopérabilité de l’internet, etc. Tous ces organismes gèrent leurs référentiels, mais ne font aucun rapprochement et publient pas de référentiel commun.

Comment alors font les systèmes d’information pour reconnaître les formats qu’ils doivent exploiter, et par extension comment le système d’archivage peut-il obtenir ces informations ?

Il existe plusieurs méthodes employées par les systèmes d’exploitation et logiciels, qui peuvent globalement être rangées dans deux catégories : celles qui se basent sur des informations externes au contenu (des métadonnées) et celles qui utilisent des signatures internes en reconnaissant le format d’après la structuration d’une partie du contenu.

Référentiels et méthodes d’identification

Pour qu’un système d’information puisse restituer l’information à partir d’un contenu de données binaire, il doit connaître le format d’encodage.

Il existe deux grandes catégories d’information de représentation :

Celles qui se basent sur des informations externes au contenu (des métadonnées) et celles qui utilisent des signatures internes en reconnaissant le format d’après la structuration d’une partie du contenu.

L’extension de fichier

L’extension de nom de fichier est un exemple de signature externe. Le système Windows de Microsoft l’utilise par exemple afin de déterminer via à un registre interne le logiciel à utiliser par défaut pour en représenter le contenu. Parfois le système apporte cette information par défaut, sinon charge au logiciel tiers lors de son installation de s’inscrire au registre comme capable d’ouvrir les fichiers tels ou tels types.

Il va sans dire que cette mécanique présente plusieurs inconvénients majeurs :

Tout d’abord il est impossible de déterminer le format sans que l’information de nom de fichier soit disponible. C’est incompatible avec des échanges de données au travers de protocoles tels que http par exemple, sans transmettre des en-têtes de fichiers complémentaires.

Ensuite cette information est partielle, car l’extension de fichier n’est pas universelle, elle potentiellement peut être utilisée par plusieurs logiciels ou versions d’un même format. Le format PDF par exemple, existe à ce jour dans 30 versions, dont certaines sont normalisées et d’autres non, et qui seront tous porteurs d’une extension « pdf ».

Enfin, l’information peut être modifiée par simple renommage du fichier. Il suffit de remplacer l’extension « docx » d’un format Microsoft Word par « zip » pour pouvoir l’ouvrir avec un logiciel de compression et en voir les fichiers contenus. Remplacez l’extension « pdf » d’un document Adobe par « txt » et vous empêchez les utilisateurs de l’exploiter facilement.

L’extension de nom de fichier est donc à réserver aux systèmes d’exploitation, qui possèdent un système de fichiers et qui tiennent un registre des applications utilisables par défaut pour leur représentation.

Le type MIME

Il s’agit de l’identification du format d’un contenu en deux parties utilisé à l’origine par le standard Multipurpose Internet Mail Extensions (MIME) ou Extensions multifonctions du courrier Internet pour définir l’encodage du contenu ou des en-têtes des courriers électroniques non ASCII.

Ce système a été étendu par la suite à d’autres protocoles comme HTTP. L’IANA maintient un registre des media types et des codages de caractères. Leur liste est accessible publiquement sur Internet à l’adresse http://www.iana.org/assignments/media-types/media-types.xhtml

Un type MIME est composé d’au moins deux parties :

Un type et un sous-type accompagnés d’un ou plusieurs autres champs au besoin. Par exemple, les sous-types du type « text » ont un champ optionnel « charset » indiquant le codage des caractères.

Les types MIME sont : audio, image, message (courriel), model (3D), multipart (contenu de courriel), text, video, application et vnd pour les types spécifiques à des éditeurs. Le sous-type précise le format, et dépend du type.

Ci-dessous quelques exemples de types MIME :

application/pdf
application/vnd.openxmlformats-officedocument.wordprocessingml.document
application/xml
application/zip
application/octet-stream
audio/mpeg
audio/flac
image/gif
image/jpeg
image/png
text/html
text/csv
text/plain
video/mpeg
video/mp4

Le type MIME est déterminé par un composant logiciel livré avec le système d’exploitation, le logiciel ou l’environnement d’exécution d’un langage de programmation. Il utilise les nombres magiques (« magic numbers ») des contenus pour les lier à des types et sous-types au travers d’une base de données (« magic database »). La détection du format est ainsi réalisée grâce à une signature interne qui fournit le nombre magique, ce qui est déjà un point positif car elle ne nécessite aucune information externe.

Par contre, le type MIME reste assez imprécis car il ne permet souvent pas de différencier les versions des formats ni l’encodage multimédia par exemple. De plus la base de données des nombres magiques ne constitue pas un référentiel contrôlé; Elle existe dans de nombreuses versions produites par des organisations ou communautés diverses et n’est officiellement enregistrée auprès d’aucune autorité.

Le type MIME est adapté à la représentation du contenu dans les messages électroniques et les interfaces web, pas à l’archivage.

Les registres de formats pour l’archivage

Il existe plusieurs projets de registre des formats numériques destinés à la conservation des données numériques, initiés par des organismes publics de différentes nationalités. Certains ont été abandonnés et d’autres sont toujours actifs.

Le Global Digital Format Registry (GDFR ou Registre Global des Formats Numériques) était un projet de la Bibliothèque de l’Université de Harvard qui a été abandonné à la fin des années 2000 (cf http://library.harvard.edu/preservation/digital-preservation_gdfr.html).

La Bibliothèque du Congrès aux Etats-Unis propose des méthodes de classification des contenus, de caractérisation et de planification des conversions basées sur un référentiel décrivant assez précisément plus de 400 formats. (cf http://www.nationalarchives.gov.uk/PRONOM)

Les Archives Nationales du Royaume-Uni publient depuis 2002 le référentiel PRONOM, qui reste à ce jour le seul registre public et opérationnel dans le monde, en mettant à disposition de la communauté des outils (DROID) et méthodes pour assurer l’identification et la qualification des formats. Chaque format possède notamment un identifiant unique universel, appelé puid, qui facilite la gestion des ressources. (cf http://www.digitalpreservation.gov/formats)

Le Unified Digital Format Registry (UDFR) est un projet développé par l’Université de Californie, qui tente d’unifier les ressources des registres PRONOM et GDFR dans un projet open-source supporté par la communauté. (cf http://www.udfr.org)

Stocker n’est pas archiver

Lorsque l’on se place du point de vue de l’activité humaine dont l’Archive est le témoin, l’important réside dans le contenu informationnel, la preuve de l’activité, qui est l’objet même de la conservation.

Le terme « archivage » est bien souvent dévoyé dans le domaine des technologies de l’information.

Il est largement employé pour désigner un déplacement du stockage des données vers un espace dédié, à des fins d’optimisation des espaces utilisés couramment. La même confusion est faite avec l’archivage des documents physiques, qui pourrait être réduite à déléguer la conservation des supports à un autre service, par le biais d’un transport.

Lorsqu’on parle d’archivage numérique des documents, l’un des sujets récurrents concerne la capacité des supports de stockage à assurer la conservation de l’information binaire pour la durée souhaitée, fut-elle virtuellement illimitée.

Même si ce problème est central, conserver les données n’est pas archiver: Les technologies de stockage les plus rapides, les plus fiables, les plus pérennes, ne seront jamais en mesure que de conserver une suite de zéros et de uns inintelligibles pour un être humain.

Pour archiver, il faut donc être en mesure de restituer le contenu informationnel lorsqu’il doit être utilisé. C’est là qu’intervient la notion d’encodage ou de format de représentation, qui définit la manière dont les données binaires sont organisées. Elle doit permettre à un dispositif technique de décoder le flux binaire pour fournir à l’utilisateur une représentation intelligible de l’information contenue, le plus souvent sur un moniteur d’ordinateur.

Voici donc l’objet de cette série de publications: Nonobstant le problème du stockage des données binaires, comment s’assurer que le contenu informationnel encodé dans les formats numériques d’aujourd’hui sera exploitable dans 10, 30, 500 ans ou plus ?

Ce besoin appelle au moins trois actions essentielles :

L’identification et la caractérisation du format d’encodage des contenus numériques. Cette tâche peut être dévolue au producteur lui-même s’il possède les outils techniques et la connaissance, ou à défaut (ce qui sera le cas le plus souvent) au service qui a la responsabilité de la conservation.

La conservation de l’information sur le format et des moyens de restituer l’information à partir des contenus numériques. Le modèle OAIS intègre ceci dans son modèle conceptuel en tant qu’information de représentation.

La pérennisation des moyens techniques de restitution du contenu informationnel tout au long du cycle de vie de l’information. Deux grands axes sont aujourd’hui explorés: convertir le contenu binaire encodé dans un format qui devient obsolète vers un format plus récent ou plus pérenne, propre à être exploité par le plus grand nombre pour une période plus ou moins longue, ou bien conserver l’environnement technique qui permet de restituer l’information.

Le Grand Débat

Le groupe Archiveco a rendu numériquement lisibles près de 200 000 réponses, souvent manuscrites, en 12 jours

Après un appel d’offre, le groupe Archiveco (avec 2 autres acteurs), a été retenu pour répondre au besoin du 1er Ministre pour la numérisation des cahiers de doléances en marge du Grand Débat National.

Les différentes technologies de traitement des écritures manuelles et dactylographiées ont fait la différence, en fonction des contraintes exprimées par le 1er Ministre. La maîtrise de plusieurs technologies complémentaires a permis à Archiveco de restituer, en fichiers numériques interprétables, les doléances manuscrites écrites souvent avec des orthographes et syntaxes hasardeuses.

La confidentialité était un enjeu clé pour cette mission, une clause a été signée par l’ensemble de l’équipe, renforcée pour l’occasion. Plus de 40 personnes se sont attelées 6 jours sur 7 pour répondre à la demande et aux contraintes de l’actualité. L’ensemble des équipes a été réparti sur 5 sites sécurisés régionaux du groupe en France : Paris (4), Lyon (19), Bordeaux (3), Avignon (5), St Quentin (10). Une équipe réduite est toujours en activité pour les retardataires.

Pour plus d’informations sur ce projet, nous serions ravis de vous organiser un entretien avec Jean-Marc Delesalle, Président de Scan-Eco, Division Numérique BPO du groupe Archiveco.

A propos du Groupe Archiveco : Acteur Français de référence depuis plus de 40 ans.

Le Groupe Archiveco est un prestataire de confiance reconnu par plus de 11000 clients, entreprises et administrations. Constitué de Archiveco et Locarchives, tiers archiveurs de confiance, Scan-Eco, prestataire de numérisation et de BPO, CD-DOC, intégrateur de GED, et Maarch éditeur de logiciels, le Groupe Archiveco propose une gamme complète de prestations de services d’externalisation et de solutions logicielles.

Il permet à ses clients de sécuriser, organiser, partager, gagner en productivité dans leur traitement des documents et des archives, quel que soit le format des supports, numériques et physiques. Les chiffres clé consolidés : 78 M€ de CA – 750 salariés – plus de 98% de clients satisfaits – 37 sites de conservation – 50 millions de pages numérisées par an – 1 Petaoctet de capacité de stockage.

Le Groupe Archiveco, acteur responsable et engagé, est investi au quotidien dans une démarche qualité. Ses différentes solutions et prestations sont certifiées, agréées, labellisées (NF Service Z40-350, ISO 9001 et NF Z 42-013, hébergeur de données de santé, archives publiques sur supports papier et électroniques).

Contacts presse :

Agence OXYGEN
Emmanuelle PIONNIER / Tatiana GRAFFEUIL
Téléphone : 01 84 02 11 31
Mail : emmanuelle.rp@oxygen-rp.com

A new partnership in Africa

We are pleased to welcome DDS Ghana as a new member of the Maarch community.

DDS is an acronym for “Digital Document Services”, and is willing to enforce its business solutions department with affordable powerful and innovative solutions as Maarch Courrier.

It’s also the first time that we have an english speaking partner who will help to adapt and deploy Maarch solutions in Ghana and english-speaking countries. The CEO, Stephane ACHARD, is a known professionnal in Document Management and Correspondence Management, experienced in major products such as OpenText.

Maarch software beeing natively written in english, localization happened to be quite easy. As for technical documentation largely present in our sites, it can be easily translated online.An english demo dataset will be happened in future tags and versions, along with terms and expressions adjustments.

Le format pour l’archivage

En informatique, le format peut être défini comme la manière dont un type de données est représenté dans une chaîne binaire.

Qu’est-ce qu’un format ?

En informatique, le format peut être défini comme la manière dont un type de données est représenté dans une chaîne binaire. Il sert de convention, éventuellement normalisée, utilisée par les systèmes d’information pour représenter les contenus, notamment dans le cas des documents numériques, pour que l’utilisateur puisse en prendre connaissance dans un périphérique d’affichage.

Il permet aussi aux systèmes d’échanger les données, ce qui constitue, avec les interfaces publiques et l’absence de restriction d’accès ou de mise en œuvre, une partie essentielle de la notion d’interopérabilité. Lorsque le contenu est enregistré dans un système de fichiers, on parle de format de fichier.

Ouvert, fermé, standard, pérenne ?

Un format dont les spécifications sont publiquement accessibles est appelé un format ouvert. A l’inverse, la spécification d’un format fermé est gardée secrète et n’est généralement pleinement exploitable que par un logiciel ou une suite de logiciels eux-mêmes non ouverts.

Un format normalisé fait l’objet d’une normalisation par une institution publique ou internationale (NF, ISO, W3C). Ceci permet aux organisations de prendre connaissance de la spécification dans le but d’exploiter les contenus en développant un logiciel adapté.

Un format propriétaire a été conçu par une entreprise, dans un but essentiellement commercial. Même ouvert et normalisé, l’entreprise qui en est à l’origine peut tenter d’en conserver le contrôle ou l’exclusivité en imposant des évolutions régulières, voire en ne respectant pas les spécifications dans les logiciels qu’elle publie et qui génèrent des documents dans ce format.

Certains formats fermés et propriétaires peuvent aussi devenir de facto des standards lorsqu’ils sont largement répandus et adoptés par le plus grand nombre. On pourrait penser que de tels formats, par exemple ceux utilisés par des suites bureautiques non libres, sont valides pour l’archivage de documents car ils peuvent être facilement exploités par les utilisateurs.

C’est une erreur !

D’abord la nature non libre du logiciel implique des restrictions sur l’accès à l’information contenue, car l’utilisateur doit en acquérir les droits d’utilisation. Ensuite, comme on l’a vu l’éditeur des logiciels peut décider de modifier le standard sans préavis, rendant obsolètes les versions précédentes uniquement exploitables par un logiciel assurant une forme de rétrocompatibilité. Enfin, le logiciel peut simplement ne plus être maintenu, parce que la stratégie de l’éditeur a changé ou qu’il a lui-même disparu du marché.

Pour être pérenne, un format de contenu numérique doit être soit ouvert, soit normalisé, et il doit être interopérable.

Le CINES (Centre Informatique National de l’Enseignement Supérieur) fournit sur son site internet une liste des formats de document numériques qu’il accepte pour l’archivage des documents en lien avec l’enseignement supérieur et la recherche. (cf facile.cines.fr)

Études de cas

Thionville et Maarch travaillent ensemble pour le label Marianne.

Thionville est une ville du Grand Est de la France. Avec un peu plus de 40 000 habitants, c’est la deuxième plus grande ville du département de la Moselle (57). Depuis plus de 10 ans, la Ville de Thionville fait confiance à Maarch pour sa gestion électronique documentaire et de courriers.

La Ville observe que ses métiers changent. Sa préoccupation majeure est de saisir les opportunités pour répondre aux mieux aux multiples attentes des usagers dans le cadre d’une nouvelle configuration à la fois technique et réglementaire.

La démarche de labellisation lui permet d’intégrer l’amélioration de la qualité de service, en tant qu’objectif partagé des services et de valoriser les efforts produits par les agents autour d’une offre de services renouvelée.
La mise en œuvre de Maarch Courrier dans sa version 18.04 complétée d’un tableau d’indicateurs lui a offert la possibilité d’un processus de gestion documentaire maîtrisé et évaluable, lisible à la fois par les agents et par les élus, indispensable à la conduite d’une politique de qualité de service.
Le tableau de suivi Marianne est un outil complet, pertinent et efficace.
Il peut être mis entre les mains des managers et être intégré au tableau de bord de suivi de l’activité du service : le tableau se connecte à l’application Maarch Courrier au travers d’un identifiant/mot de passe utilisateur, et importe les données utiles sélectionnées par Web Service.

Durant ce projet, les éléments qui ont été mis en place sont:

  • Le renseignement systématique de délais de traitement pour l’ensemble de la typologie de courrier ;
  • La révision des cadences et événements d’alertes, relances et notifications ;
  • La construction d’un circuit administratif spécifique pour les saisines par voie électronique, et tous les entrants électroniques en général, alimentant automatiquement la GEC ;
  • La construction grâce à l’expertise de Thionville d’un tableau de suivi Marianne directement connecté à l’application Maarch Courrier ;
  • Une formation avancée pour les administrateurs fonctionnels et les utilisateurs, afin de leur montrer la nouvelle version et les sensibiliser aux nouvelles procédures.

Le projet en quelques chiffres :

  • 16 jours de réunions (1 réunion par semaine, pendant 4 mois, durée totale du projet)
  • 30 jours réservés à la partie technique (paramétrage, installation et conception)
  • 10 jours de formation
  • 4 experts Maarch
  • 4 agents de la collectivité (Responsables informatique, juridique, secrétariat général et traitement du courrier/démarche qualité)

Précisément, l’engagement n°7 du label Marianne prévoit que la Ville répond de façon claire et précise aux demandes et aux réclamations. Ce que Thionville et Maarch ont décliné de la façon suivante :

Thionville

Veiller à la présence systématique, sur 90 % des courriers/courriels envoyés aux usagers des informations indispensables et à jour (service concerné, coordonnées, horaires, site internet…). (choix thionvillois)