Les techniques documentaires : le traitement de l'information

Modifié le 16 mai 2023

Famille :

Les concours de la FPT

Dernière mise à jour : janvier 2016

Le traitement documentaire est une opération intellectuelle d’analyse de l’information contenue dans les documents. Il s’agit de les indexer, de les organiser, de les synthétiser et de les valoriser auprès des utilisateurs, afin de permettre leur repérage et leur utilisation ultérieurs.

Pour décrire et caractériser un document, un certain nombre d’outils linguistiques sont utilisés : mots-clés (ou descripteurs), classifications, résumés. L’ensemble des éléments qui caractérisent un document sont réunis dans une notice descriptive.

On ne reviendra pas dans cette fiche sur l’opération de catalogage ni de bulletinage, opérations de description physique des documents.

1. Indexation (thésaurus et listes d’autorité)

Les langages documentaires constituent des langages artificiels qui ont été créés pour indexer des documents. Ils permettent de représenter de manière univoque les notions identifiées dans les documents, en prescrivant une liste de termes ou d'indices, et leurs règles d'utilisation

La norme AFNOR Z47-102 :2 définit l’indexation comme « l’opération qui consiste à décrire et à caractériser un document à l’aide de représentations des concepts contenus dans ce document, c’est-à-dire à transcrire en langage documentaire les concepts après les avoir extraits du document par une analyse ».

Chaque document est indexé en général au moyen d’un ou plusieurs termes, qu’on appelle, selon les cas, vedettes-matières, mots-clés ou descripteurs.

1.1. Liste d’autorité

Utilisées principalement dans le monde des bibliothèques, les listes d’autorité constituent un langage contrôlé pré-coordonné. C’est-à-dire que les termes sont reliés entre eux avant indexation selon une syntaxe particulière afin d’associer des notions proches (un terme principal et des subdivisions). Les listes d’autorité ne sont pas hiérarchiques (arborescentes). Chaque terme de la liste d’autorité est appelé « vedette-matière ».

1.2. Thésaurus

Le thésaurus est un langage documentaire organisé sous forme hiérarchique (ou arborescente) des termes. Les termes choisis pour indexer les documents sont appelés MOT-CLE ou DESCRIPTEUR.

Plusieurs relations relient les descripteurs entre eux dans un thésaurus : des relations hiérarchiques, des relations de synonymie, des relations d’associativité.

Si le thésaurus comprend plusieurs grands domaines de connaissances, il est formé de plusieurs branches.

1.3. Relation hiérarchique (TG / TS)

La notion la plus générale est représentée par un TERME GENERIQUE.

Le terme qui décrit une notion plus fine associée à ce générique est appelé TERME SPECIFIQUE.

Fiche 6_WKT_html_634293e4.png

1.4. Relation de synonymie (EM / EP)

La relation hiérarchique est la première relation qui unit les termes entre eux dans un thésaurus. Mais les termes peuvent être également reliés par une relation de synonymie, dans laquelle un terme est autorisé et son synonyme est interdit.

Fiche 6_WKT_html_23d52104.png

1.5. Relation d’associativité (TA)

Deux descripteurs qui appartiennent chacun à une branche du thésaurus sont associés sémantiquement sans relation hiérarchique entre eux.

Fiche 6_WKT_html_7e061d97.png

Les thésaurus comprennent plusieurs formats d’édition :

  • Une liste alphabétique des descripteurs, indiquant pour chacun d’entre eux son emplacement dans le thésaurus et ses relations avec les autres termes
  • Une liste hiérarchisée des termes dans chaque branche (cf. exemple supra).
  • Une liste permutée : liste alphabétique dans laquelle chaque terme d’une expression combinée apparaît alphabétiquement dans la liste. Ex : MUNICIPAL (conseil)
  • Eventuellement un schéma fléché qui est une représentation graphique du thésaurus. Le descripteur le plus général est placé dans la partie centrale du schéma, les termes reliés gravitant autour de lui. Les relations entre les termes sont exprimées graphiquement par des symboles tels que flèches ou traits simples.

1.6. Autres types d’indexation

Moins répandues dans le monde de la documentation, ces typologies d’indexation sont néanmoins à connaître :

  • Classification à facettes : système reposant sur un vocabulaire contrôlé, permettant de décrire une ressource selon plusieurs angles. Il permet la recherche selon différentes facettes. Peu utilisé dans le monde francophone, ce système de classification au croisement de la classification et de l’indexation nécessite de bien différencier les concepts et les sujets.
  • Folksonomie : Ensemble de tags (mots-clés) librement attribués par des utilisateurs dans le contexte d’un “réseau social”. Permet à chaque “lecteur” de “tagger” les contenus et de partager ses tags, sans contrainte de vocabulaire
  • Ontologies : contrairement aux thésaurus qui offrent un nombre limité de relations, dans une ontologie, l’auteur peut définir des relations, autrement dit il peut intervenir sur la syntaxe du langage d’indexation. Une ontologie correspond à un langage formel c’est-à-dire une grammaire qui définit la façon dont les termes peuvent être utilisés entre eux. On aborde ici les notions du web sémantique (cf. fiche 9.6)

Un thésaurus doit être mis à jour régulièrement pour l’enrichir de notions nouvelles et supprimer ou renommer les notions obsolètes ou vieillissantes.

2. Analyse documentaire (résumé)

L’analyse documentaire permet de repérer les principaux concepts et les principales idées développées par l’auteur dans un document. Lors de la lecture globale du document, le documentaliste doit s’interroger sur ce qui fait l’intérêt de ce document particulier pour son public cible.

Le résumé est un aspect important du travail documentaire. Un bon résumé contribue à l’intérêt apporté par l’utilisateur à l’information sélectionnée.

Il est défini par la norme Afnor Z-44-004 : « le résumé est un texte concis reflétant fidèlement, sans interprétation ni critique, le contenu du document. Il a pour but d’aider le lecteur à cerner la pertinence du document vis-à-vis de l’information recherchée ».

Il ne saurait être confondu avec le résumé d’auteur ni avec le résumé d’éditeur qui a pour but de faire vendre l’ouvrage, ni avec le « chapeau » des articles qui ne constitue généralement qu’une introduction à l’article. Enfin, il ne doit pas paraphraser le titre.

En fonction du « poids » du document (richesse informationnelle), le documentaliste pratiquera :

  • un résumé indicatif (20 à 100 mots) qui explicite le titre
  • un résumé informatif (100 à 250 mots) qui résume le contenu
  • un résumé sélectif qui attire l’attention sur une partie spécifique du document

Dans la plupart des cas, c’est le résumé informatif qui sera pratiqué. La norme définit ce résumé comme :

« … un texte autonome d’une logique rigoureuse. Il forme avec le titre du document un ensemble qui, en principe, ne doit pas être redondant.

Les informations retenues pour le résumé sont généralement présentées selon leur ordre d’apparition dans le document. Cet ordre facilite l’exploitation du résumé par le lecteur habitué au plan des articles publiés dans sa spécialité … »

Pour ne pas porter atteinte au droit d’auteur (cf. fiche 8.4), une réécriture (reformulation) des idées est impérative.

Le résumé est une opération essentielle. Un résumé fidèle et qui met bien en valeur l’intérêt de l’information contenue dans le document permet de retrouver le document dans la base de données par le biais d’une recherche en langage libre. Il retient l’attention et incite le lecteur à la consultation du document primaire.

3. Classification et cotation

3.1. Classification

L’ADBS définit le terme de classification comme :

« Langage documentaire permettant l'organisation d'un ou plusieurs domaines de la connaissance en un système ordonné de classes et sous-classes. Celles-ci ainsi que leurs relations peuvent être représentées par les indices d'une notation. Ces indices sont explicités par un libellé textuel. Différents critères peuvent être choisis pour différencier les classifications : le mode de division et de structuration (classification à facettes) ; la notation décimale ou alphanumérique ; la couverture des domaines de la connaissance traités (classification encyclopédique telles la CDU et la classification de Dewey, spécialisée ou sectorielle) ; leur structure et organisation (classification hiérarchique), etc. »

  • Le classement alphanumérique est une combinaison entre le classement alphabétique et numérique : il consiste à répartir les documents dans des classes alphabétiques préétablies, puis, à l’intérieur de celles-ci, de leurs attribuer, selon leurs ordre d’arrivée, un numéro. Cette classification implique de constituer un répertoire pour connaître le nom du dossier et le numéro qui lui est attribué. Or cette disposition est pratiquement inapplicable quand les documents à classer sont très nombreux
  • La Classification décimale Dewey (CDD développé en 1876 par Melvil Dewey,) et la classification décimale universelle (CDU développée par Paul Otlet en 1905), sont des systèmes de classification numériques encyclopédiques, couvrant tous les domaines de la connaissance en dix grandes catégories, numérotées de 0 à 9. Certaines disciplines possèdent un indice complexe du fait de leur apparition récente. Chacune des catégories peut être subdivisée selon les besoins de l’analyse documentaire : plus la partie systématique de l’indice d’un document est longue, plus son contenu est spécifique. Des signes de ponctuation sont utilisés pour mettre en relation les domaines.

Ces deux classifications sont encore largement utilisées en bibliothèques mais même si elles ont évolué, elles traduisent une philosophie des connaissances qui reste influencée par l’époque de leur conception.

Les centres de documentation pratiquent plus volontiers des systèmes de classifications qui leur sont propres, ou qu’ils adaptent à partir de leur réseau documentaire ou à partir de plans de classement de grands organismes au plan national et qu’ils personnalisent selon les besoins propres de leur collectivité.

Un plan de classement est généralement construit sur 3 à 4 niveaux de subdivisions thématiques.

Fiche 6_WKT_html_21b40e87.png

3.2. Cotation

La cotation est l’opération qui consiste à attribuer une « cote » à un ouvrage. La cote est le report sur le document (dos, page de titre, tranche) de sa classification. Elle indique ainsi la localisation précise d’un document en rayon. Elle doit être lisible et compréhensible car il faut ranger ou retrouver facilement l’ouvrage, tant pour le personnel du centre de documentation que pour ses utilisateurs.

4. Normes, formats et standards

Les notions qui suivent ne sont pas mises en œuvre quotidiennement dans le travail documentaire, mais il est bon d’en avoir une compréhension et une connaissance suffisantes pour pouvoir administrer un système documentaire évolué ou piloter les projets d’évolution de celui-ci.

4.1. Normes

Dans les métiers de l’information, les normes ne sont pas obligatoires mais elles donnent des règles directrices, permettent des échanges techniques, facilitent la gestion, constituent un langage commun entre les professionnels.

Deux organismes sont à connaître qui publient, entre autres, des normes en information / documentation

  • L’ISO (International Organization for Standardization), organisme qui publie des normes internationales
  • L’AFNOR (Association Française de Normalisation) qui représente la France auprès de l’ISO et élabore, coordonne et assure la reconnaissance des normes NF.

Pour les œuvres publiées, à chaque œuvre est attribué un numéro d’identification unique qui fait l’objet d’une normalisation :

  • L’ISBN est un numéro international normalisé permettant l’identification d’un livre dans une édition donnée. Le numéro ISBN comporte 13 chiffres à ce jour répartis en 5 segments : le premier étant un préfixe appliqué au produit livre (978 ou 979), le deuxième identifiant la zone linguistique (2 pour les pays francophones), le troisième l’éditeur, le quatrième un livre précis dans la production de l’éditeur, le cinquième est un chiffre de contrôle.
  • L’ISSN est un code de 8 chiffres servant à identifier les journaux, revues, magazines, périodiques de toute nature et sur tous supports, papier comme électronique.

Attention à la confusion entre Standard et Norme. Le standard résulte d’un consensus plus restreint que pour la norme, il est élaboré entre des industriels au sein de consortiums et non par des organismes nationaux.

4.2. Formats et standards

Le format est une structure de notice bibliographique, généralement normalisée.

Il existe des normes concernant les règles de description bibliographique (catalogage) des documents de tous types. Elles sont en général utilisées principalement dans les grandes bibliothèques.

  • L'ISBD est un ensemble normatif de règles validées au niveau international, pour la description bibliographique de toute ressource publiée existant dans les bibliothèques, quel qu’en soit le support. L’informatisation des bibliothèques a donné naissance à une nouvelles normalisation, le format MARC ou UNIMARC.
  • UNIMARC : fondé sur la normalisation internationale, le format UNIMARC (acronyme pour UNIversal MARC) est le format développé par l’IFLA pour permettre l’échange de l’information bibliographique informatisée et servir d’interface entre les formats MARC nationaux. En France, c’est le format officiel d’échange de l’information bibliographique et le format de travail du Sudoc (Système universitaire de documentation) et de la plupart des bibliothèques publiques. Il est géré par le Comité français UNIMARC.

Auteur(s) :

NOET Françoise

Tags :

Accès thématique

Accès famille

© 2017 CNFPT