logo Mkadmi
Accueil            ISD            Equipe de recherche           Laboratoire Paragraphe            Enssib         ECP           Contact  

Accueil

 

 
   
   
   
   

 
 

Contact

 
 
Documents numériques et bibliothèques
     

Catalogage des documents numériques

La norme ISBD

La description de presque tous les types de documents a été couverte par les International Standard Bibliographic Description. Du ISBD (G) pour la description des documents en général au ISBD (NBM) pour les Non Book Material, la description a touché aussi les Monographies (ISBD (M)), les publications en série (ISBD(S)), la musique imprimée (ISBD(PM)), etc. Avec l’arrivée du document numérique et de nouveaux supports d’information, le besoin et l’importance de décrire ces nouveaux types de documents et de supports est rapidement apparue pour couvrir d’abord les fichiers informatiques stockés dans des CDROMs , des disquettes, etc. à travers la norme ISBD (CF) (Computer Files).

Quant aux ressources numériques, la description a touché en premier lieu les ressources en ligne (Internet en particulier). « Ensuite les règles de catalogage internationales ont intégré des ressources électroniques ISBD (ER) (Electronic Resources) de toutes natures. Les ressources en évolution continue (publications en série et sites Web) sont décrites, depuis 2002, selon les règles de l’ISBD(CR) (Continuous Resources). » [Jacquesson, 2005].

Le format Marc

La zone 856 du format US-Mrc et aussi du format Unimarc (depuis 1996), intitulée Electronic Location and Access (Localisation et accès électroniques) [figure 15] représentait une avancée très importante formalisant le lien entre une notice descriptive et un document électronique identifiable sur un réseau informatique. Cette zone créée depuis 1993 permet aux concepteurs de systèmes informatiques pour les bibliothèques de l’utiliser pour afficher directement les documents reliés à partir d’une recherche.

856 Localisation et accès électroniques
Indicateurs
Premier Méthode d’accès
#
0
1
2
3
4
7
Pas d’information disponible
Email (courrier électronique)
FTP (Protocole de transfert de fichier)
Remote Login (Telnet, connexion à distance)
Dial-up (réseau téléphonique commuté, modem)
http (protocole Web)
Méthode spécifiée dans la sous-zone $2
Second Relation
#
0
1
2
8
Pas d’information disponible
Ressource
Version de la ressource
Ressource en relation
Pas de constante affichée
Codes de sous-zone
a
b
c
d
f
h
i
j
k
l
m
n
p
q
r
s
t
u
v
w
x
y
z
2
3
6

8

Host Name (nom du serveur)
Numéro d’accès (par exemple, adresse Internet – IP)
Information sur la compression
Path (chemin d’accès)
Electronic Name (Nom de fichier)
Processor of request (administrateur des requêtes)
Instruction
BPS (Vitesse de transfert – bits par seconde)
Mot de passe
Logon/Login
Contact for access assistance (aide pour l’accès à distance)
Nom de la localisation du serveur indiqué en $a
Port de l’ordinateur
Electronic format type (type de fichier : Ascii, Jpeg, PostScript, etc.)
Settings (Paramètres de transmission)
File size (taille du fichier)
Terminal emulation (émulation de terminal)
URL (Uniform Resource Locator)
Hours access method available (heures d’ouverture du service)
Record control number (Numéro de la LC, d’OCLC, etc.)
Nonpublic note
Link text (texte du lien)
Public note
Access method (Méthode d’accès)
Material specified (Matériel complémentaire)
Linkage (relation avec des représentations de caractères non latins dans le même enregistrement : cyrillique, arabe, hébreu, chinois, etc.)
Field link and sequence number

Structure de la zone 856 du format Marc21

Formats de représentation des documents

Pour les documents numériques, il existe plusieurs types, et pour chaque type, il y a des formats adaptés pour la représentation des documents. On cite à titre d'exemple les documents textes, les documents images, et les documents multimédias. Pour le premier, les formats Word, HTML, XML, PDF, SGML… peuvent être des moyens pour stocker et représenter ce type de documents. Pour les documents images, les formats utilisés pour stocker de l'information sont : TIFF, JPEG, GIF. Pour les documents multimédias qui ne représentent pas une part très importante dans les bibliothèques numériques, il y a par exemple le format MPEG pour la vidéo, les formats WAV, MP3, MIDI… pour le son.

Internet et les formats de représentation des documents

Vu l'évolution du réseau Internet, sa transformation d'un outil de communication réservé à un milieu restreint en un médium de communication grand public et vu l'explosion d'information sur ce réseau, les besoins de structurer l'information et de la rendre utilisable d'une façon rapide et optimale sont devenus nécessaires.

Pour répondre à ces besoins dans les bibliothèques, les formats bibliographiques représentaient le moyen le plus efficace et le plus répandu pour représenter, structurer et diffuser l'information.
Pour Internet, les initiatives se rapprochent de celles du milieu d'information traditionnel. En effet, ce sont les métainformations (informations sur les informations) ou plutôt des métadonnées qui ont répondu à cette exigence, telles que les métadonnées de HTML (HyperText Markup Language), TEI (Text Encoding Iniative), MCF (Meta Content Format), Dublin Core, LOM (Learning Object Model) , etc.

La métainformation est selon [ELZ 97] la "représentation d'un document" qui " se fait à trois niveaux : signalétique, analytique et référentiel".
Le niveau signalétique, comme son nom l'indique, consiste à signaler l'existence d'un document par l'extraction des éléments d'identification tels l'auteur, le titre, l'éditeur, etc. L'analytique a un rapport avec le contenu à l'aide du titre, des têtes de chapitres, de la table des matières, du résumé…Quant au référentiel, il se fait "par le biais d'un autre document qui réfère au document traité".
Cependant, sur le réseau Internet, les informations sont présentées et diffusées sous différents formats qui sont conçus uniquement pour l'Internet tels que HTML, qui est issu du SGML, au autres tels que ASCII (texte), MIDI, WAV, GIF, JPEG, QT (formats multimédias).


Formats Internet & formats bibliographiques

Les formats représentent les différentes façons selon lesquelles l'information est mémorisée.

HTML

À cause du besoin d'Internet d'utiliser des bases de données pour structurer ses données, et à cause de notre besoin d'avoir une piste d'accéder rapidement à son contenu, il y a des équipes qui essaient d'établir des comparaisons de l'information Internet et celle des notices bibliographiques, en d'autres termes entre HTML et les formats bibliographiques.
Pour les premières versions de HTML, il n'y a pas vraiment de concordance entre les deux sur tous les plans. [ELZ 97] a schématisé cette différence dans le tableau suivant :

Paramètres/Formats HTML Formats bibliographiques
Type d'information Information Métainformation
Buts Présentation de l'information Compilation de l'information
Finalité Données non structurées reliées par hyperliens Données structurées
Diffusion Electronique Diverses formes dont la forme électronique
Tableau 11: Comparaison entre formats Internet et Formats bibliographiques

C'est à partir de la version (3.2) de HTML, qu'on a pu intégrer des fonctions d'identification de métainformation (description du document et mots clés).

TEI :

Élaborée à partir des besoins de mise en réseau de données, la TEI est une norme d'élaboration et d'échange de données électroniques à des fins de recherche. Elle est utilisée sur le Web au même titre que HTML et a pour base syntaxique le SGML.

MCF :

Le MCF (Meta-Content Format), format d'échange de données a pour but de fournir un langage de représentation du contenu de l'information. "La particularité de ce format réside dans le fait que la métainformation n'est pas codée comme dans HTML ou SGML, mais elle est automatiquement extraite et représentée sous le format MCF". [ELZ 97].

Dublin Core (http://www.dublincore.org) :

Vu le volume très important des informations sur Internet, il faut trouver une solution pour en assurer le traitement. Cette solution consistait selon le "Metadata Workshop" organisé par "The Online Computer Library Center" et "le National center for Supercomputing Applications" en Mars 1995 à définir des éléments de métainformation pour que les auteurs et les fournisseurs de documents puissent eux même décrire les documents. Il est très largement utilisé, surtout dans le contexte du Web, et est une norme ISO depuis février 2003.

La norme de Métadonnées du Dublin Core propose un ensemble d'éléments, simples mais efficaces, pour décrire une grande variété de ressources en réseau. Les champs de métadonnées du Dublin Core sont appelés éléments ; la signification de certains d'entre peut être précisée à l'aide de raffinements. Un raffinement restreint la signification d'un élément, mais sans la changer fondamentalement. L'utilisation des raffinements est facultative. Le tableau suivant présente la liste des quinze métadonnées admises comme standard, et qui sont utilisées comme éléments de base pour étendre les métadonnées dans plusieurs domaines.

Elément Identifiant Définition
Titre dc:title Le nom donné à la ressource.
Créateur dc:creator L'entité principalement responsable de la création du contenu de la ressource.
Sujet dc:subject Le sujet du contenu de la ressource.
Description dc:description Une description du contenu de la ressource.
Editeur Dc:publisher L'entité responsable de la diffusion de la ressource, dans sa forme actuelle, tels un département universitaire, une entreprise, etc.
Contributeur dc:contributor Une entité qui a contribué à la création du contenu de la ressource.
Date dc:date Une date associée avec un événement dans le cycle de vie de la ressource.
Type dc:type La nature ou le genre du contenu de la ressource.
Format dc:format La matérialisation physique ou digitale de la ressource.
identifiant de la ressource Dc:identifier Une référence non ambiguë à la ressource dans un contexte donné.
Source dc:source Une référence à une ressource à partir de laquelle la ressource actuelle a été dérivée.
Langue Dc:language La langue du contenu intellectuel de la ressource.
Relation dc:relation Une référence à une autre ressource qui a un rapport avec cette ressource.
Couverture Dc:coverage La portée ou la couverture spatio-temporelle de la ressource.
Droits dc:rights Information sur les droits au sujet de la ressource.

Ceux-ci peuvent être raffinés, ainsi pour la date il est possible de préciser si c’est la date de création, de mise à disposition ou de dernière modification.


Exemple avec HTML :

<META NAME ="dc : Format" content="la matérialisation physique ou digitale de la ressource" > .
<META NAME="dc:Description" CONTENT="brève description de la page">
<META NAME="dc:author" CONTENT="nom de l'auteur">

La définition d'un ensemble standardisé d'éléments de métadonnées ne résout pas tous les problèmes. Comme les traitements doivent être faits par des logiciels, il faut aussi spécifier de façon aussi précise que possible la façon dont ils seront représentés et stockés dans des fichiers ou des bases de données. Généralement, les standards s'accompagnent de «bindings», c'est-à-dire formalisent l’expression de l'ensemble des métadonnées dans tel langage de programmation, tel langage de balisage, etc.
Si les ressources à indexer sont des fichiers HTML, les métadonnées peuvent être implémentées sous forme de balises META, dans ce cas, elles sont incluses dans la ressource elle-même. Ainsi, en utilisant le Dublin Core, on pourraît mettre dans le fichier HTML .

Une autre solution, très largement répandue, est d'utiliser XML ; dans ce cas le standard s'accompagne d’une DTD ou d'un schéma XML. L’utilisation de XML permet d’indexer des ressources de tout type (texte, image, son, programme, etc.) et permet de traiter les descriptions sans accéder aux ressources. Mais, ces solutions ne permettent pas d'exprimer complètement la sémantique des éléments. Celle-ci ne peut se faire que par des langages de plus haut niveau tels que RDF ou OWL.


Profil Dublin Core appliqué aux collections

Comme pour les métadonnées d’un document, de telles métadonnées de niveau « collection » répondent le mieux aux nécessités de décrire une collection des données. Elles sont issues d’un modèle et d’un schéma formel, avec des règles appropriées pour maximiser la cohérence du contenu des données. Le modèle de relations entre entités développées par le Research Support Libraries Programme [HEA 00] fournit une base pour de nombreux schémas de données développés par la suite au Royaume-Uni. Plus récemment, le profil Dublin Core appliqué aux collections a été publié (Dublin Core Description Task Group, 2007) et un projet de norme NISO a été mis à disposition pour test (National Information Standards Organization, 2005) [DUN 07]

Le modèle de relation entre entités identifie trois entités de base nécessaires pour décrire une collection :
- Collection,
- Lieu,
- Agent.

Certaines des relations entre ces entités sont :
- La Collection est située dans le Lieu ;
- La Collection est constituée par l’Agent ;
- La Collection est possédée par l’Agent ;
- Le Lieu est administré par l’Agent.

SGML, XML : deux formats standards de description et d’échange d’informations, le premier n’est évoqué aujourd’hui que dans un contexte historique et le deuxième en a repris les principaux acquis.

  Sommaire
Accueil            ISD            Equipe de recherche           Laboratoire Paragraphe            Enssib         ECP           Contact