Shapiro et Varian [36] considèrent que l'information, c'est l'ensemble des documents : ils suggèrent ainsi une synonymie entre « information » et « documentation ». La « théorie de l'information » de Shannon [35] associe à chaque document la mesure du nombre minimal de bits nécessaire pour le reproduire : l'information serait ainsi une mesure du volume de données non redondantes que le document contient. La « science de l'information » décrit les techniques qui permettent de classer un corpus de documents afin d'y trouver aisément ceux dont on a besoin. Ackoff [1] définit enfin l'information comme « les données qui sont traitées afin d'être utiles, et de répondre à des questions comme "qui", "quoi", "où" et "quand" ».
Ces définitions sont toutes critiquables. Parmi les documents qui comportent un nombre donné de caractères, ceux qui apporteraient selon Shannon le plus d'information seraient ceux dont les caractères ont été tirés au hasard car ils ne comportent aucune redondance. Cependant lorsqu'on est confronté à un document illisible ou incompréhensible le langage courant dit avec raison qu'il « n'apporte aucune information », quelle que soit sa longueur...
L'étymologie est plus éclairante : « informer », c'est donner une forme intérieure en donnant au mot « forme » le sens qu'il a chez Aristote et qui désigne l'essence, ou la définition, d'un être en interaction avec d'autres êtres. « Former » quelqu'un, ou mieux l'informer, c'est donc lui procurer une capacité d'agir.
Si l'on donne cette acception au mot « information » on ne le considérera plus comme un synonyme de « documentation » ni de « volume de données » : on dira qu'un document se transforme en information lorsqu'il rencontre un cerveau capable de l'interpréter, tout comme une gouttelette d'eau en surfusion se transforme en givre lorsqu'elle rencontre une surface solide.
Pour qu'un cerveau soit apte à recevoir une information il faut qu'il ait reçu auparavant une structure convenable : l'instruction prépare à recevoir une formation. Enfin il est évident que l'exercice et l'expérience améliorent l'aptitude d'une personne à s'informer en interprétant des documents, tout comme ils accroissent le domaine qui s'offre à son action et, corrélativement, l'ampleur de ce qui l'intéresse.
Une distance dans le cyberespace
On peut définir théoriquement entre chaque utilisateur et chaque ressource documentaire une distance d(u, r) d'autant plus faible que le document est plus intelligible pour cet individu (ou, ce qui revient au même, plus intéressant pour lui), et qu'il lui apporte donc plus d'information. À partir de cette distance on peut définir deux classifications : une pour les documents, une autre pour les utilisateurs. Nommons « domaine de u » l'ensemble des documents proches de l'utilisateur u : D(u) = { r | d(u, r) < s}, où s est un seuil conventionnel. Nommons « lectorat de r » l'ensemble des utilisateurs intéressés par le document r : L(r) = { u | d(u, r) < s} Considérons un sous-ensemble D de l'ensemble R des documents. Nous noterons L(D) l'ensemble des utilisateurs intéressés par tous les documents que contient D : L(D) = {u | D ⊂ D(u)} Considérons un sous-ensemble L de l'ensemble U des utilisateurs. Nous noterons D(L) l'ensemble des documents qui intéressent tous les utilisateurs appartenant à U : D(L) = { ∩ D(u) | u ∈ L} L et D sont en correspondance si L[D(L)] = L et D[L(D)] = D. Supposons que l'on ait segmenté la population des utilisateurs en les classant selon des données intrinsèques (âge, sexe, lieu de résidence, CSP, niveau de revenu etc.), et que l'on ait procédé de même sur la population des documents (selon la langue, le vocabulaire, la longueur etc.). Une analyse des correspondances sur le tableau qui croise ces deux segmentations permettra d'identifier des sous-ensembles qui sont statistiquement en correspondance. Cela fournit une aide pour la dissémination sélective des documents (La « dissémination sélective » consiste à gérer la ressource documentaire de telle sorte que chaque agent reçoive les documents qui lui sont utiles ou qui l'intéressent, ce qui revient au même, et seulement ceux-là). |
Prendre information selon son sens étymologique conduit à considérer non seulement le document lui-même mais aussi les conditions de sa rencontre avec le cerveau, ce qui implique de se soucier de la commodité d'accès et de la lisibilité (présentation, typographie, outils de classement, recherche et balisage etc.).
Il apparaît alors que pour obtenir la lisibilité il faut consentir de perdre une part de la richesse du document (de l'« information » au sens de Shannon) : un document imprimé est plus lisible qu'un manuscrit, un tableau de bord sélectif est plus lisible qu'un volumineux empilement de statistiques, une base de données ne peut être consultée utilement qu'à travers des « vues » partielles.
L'acception étymologique d'information permet aussi de comprendre le sens des mots « informatique » et « informatisation », qui associent « information » et « automate ». Si nous comprenons que l'information est ce qui, donnant une forme (intérieure) au cerveau humain, lui confère la capacité d'agir, nous voyons qu'« informatique » désigne l'alliage du cerveau et de l'automate et qu'« informatisation » désigne le déploiement des conséquences de cet alliage : nous reviendrons sur ce point.
Quand on parle enfin de « système d'information », qu'entend-on par « système » ? Ce mot évoque une structure organique, donc plus riche qu'une classification ensembliste. On ne peut pas se contenter de dire qu'un système d'information est « un ensemble de lignes de codes », pas plus qu'on ne peut considérer un corps vivant comme un « ensemble de cellules » : ces éléments forment des organes ayant chacun une fonction particulière : c'est donc le plus souvent sur ces organes et sur leurs fonctions qu'il convient de raisonner et non sur les éléments qu'ils contiennent, et c'est ce que l'on fait lors des démarches dites d'urbanisation, de modélisation et d'implémentation.
Aucun commentaire:
Enregistrer un commentaire