Deuxiême colloque du chapître de l'International Society
for Knowledge Organization, ISKO99, Lyon, France, Oct 21-22, 1999.
English version (draft only).
Forme, Signification, et Structure des Systèmes de
Sélection du Savoir
Michael Buckland,
Professor,
School of Information Management and Systems,
University of California, Berkeley, CA, USA
"Une bibliographe contemporaine soucieuse de clarté a lancé cette brève définition: Un
document est une preuve à l'appui d'un fait." (Suzanne Briet, 1951, 7)
Mesdames, Messieurs, l'invitation à ce colloque d'ISKO France est un
très grand honneur.
Je vous remercie
et je dois reconnaître l'influence dans ma vie professionelle
des oeuvres de
documentalistes francophones, surtout
Suzanne Briet et Paul Otlet. On m'a invité à faire
une allocution sur les origines, le développement historique, l'état actuel, et l'avenir de
l'indexation. À la place d'un tel discours qui, évidement, serait
beaucoup trop ambitieux pour moi, j'ai voulu présenter
quelques idées touchant les systêmes de sélection.
Quels phénomènes intéressent les chercheurs en systèmes
d'organisation du savoir?
Qu'est-ce qu'on peut dire sur la structure de tels systêmes? Comment
peuvent les usagers de tels systêmes
comprendre ce que les données, les documents, et les metadonnées signifient? Comment pouvons nous joindre en une seule perspective
la technologie et la signification? En bref, comment
caractérisons nous les systêmes
d'organisation du savoir. Les remarques que je vais présenter aujourd'hui
proviennent d'idées
développées avec mes collègues à Berkeley.
Mon titre est "Forme, Signification, et Structure des
Systèmes de Sélection du Savoir".
Le mot "Forme" concerne les phénomènes
d'intérêt
("Information-as-thing").
Le mot "Signification" est susceptible de désigner tantôt la faire
(la signification comme procès: "Information-as-process"), tantôt
l'état (ce qui est signifié "Information-as-knowledge").
J'utilise "Structure" pour représenter le génie, le systême et le savoir-faire du documentaliste.
1.
De quelles choses nous occupons nous?
Les membres d'ISKO s'intéressent à la structure du savoir.
Cependant, quand nous utilisons n'importe quelle espèce
de technologie pour développer des systèmes opérationels,
nous ne nous occupons plus directement de conceptions
abstraites, mais de données, de textes, et d'autres
objects concrets. La technologie est nécessairement
matérielle. Donc nous nous occupons indirectement de savoir.
Nous nous occupons directement de signes, de représentations de la
connaissance, d'objets que nous considérons comme significatifs.
On pourrait dire que nous nous occupons de
documents, mais de document dans n'importe quelle forme.
Les documents ne sont pas seulement faits de texte.
Parler de "document" de cette façon n'est pas original.
En 1937 l'Institut International
de Coopération Intellectuelle, une organisation crée par la Société des Nations, a collaboré avec
l'Union Français des Organismes de Documentation, à fin de définir des termes techniques,
"document" y compris:
Document : Toute base de connaissance, fixée matériellement, susceptible d'être utilisée
pour consultation, étude ou preuve. Exemples: manuscrits, imprimés, représentations
graphiques ou figurées, objets de collections, etc...
Document : Any source of information, in material form, capable of being used
for
reference or study or as an authority. Examples: manuscripts, printed matter, illustrations,
diagrams, museum specimens, etc.... (Anon. 1937: 234)
2. L'Indexicalité
Suzanne Briet (1894-1989), bibliothècaire, documentaliste, historienne,
a avancé le concept
de "document" en 1951 dans son manifeste intéressant Qu'est-ce que la documentation? Elle
déclare, tout d'abord, que "Un document est une preuve à l'appui d'un fait" (Briet, 1951, 7).
Ensuite, elle explique qu'un document est:
"...tout indice concret ou symbolique, conservé ou enregistré, aux fins de représenter, de
reconstituer ou de prouver un phénomène ou physique ou
intellectuel."
(Briet, 1951, 7).
Par consequence on ne peut pas considérer que le métier de documentaliste (ou bien
"Information Management") s'occupe de textes, mais, plutôt, de toute espèce de preuve, de
témoignage, d'évidence et que cette preuve ("le document") est de forme concrète et non pas
abstraite. Remarquons que Briet a employé le mot "indice." À mon avis, le mot "indice" veut
dire qu'un objet ne devient une preuve (un document) que si on a placé cet objet en rapport avec
des autres preuves (des autres documents). C'est à dire que les documents doivent être arrangés
"indexicalement," les uns avec les autres.
Une approche plus contemporaine serait de dire que le sens est construit par le spectateur. Que tout objet pourrait, dans certaines
situations, être preuve, être un document.
Donc tout objet peut devenir signifiant. Tout object concrèt
peut être un document. C'est possible, même si
c'est peu vraisemblable. Malgré tout, nous retenons deux suppositions de
Briet: Que tout objet peut être un document; et que
l'essence de la documentation est d'arranger volontairement ces objets dans
des relations indexicales.
Ces relations sont, bien sur, d'un intérêt tout particulier
pour les membres de l'ISKO.
3. Que faire avec des documents?
En plus d'être créés, les documents sont sélectionnés, représentés, et utilisés.
3.1. Sélection.
Nous rassemblons des documents dans des collections et nous extrayons
des documents de nos collections. D'habitude on crois que ce sont des
procédés différents. Mais le développement
de collections et l'extraction de documents d'une collection sont tous
deux des procédés de seléction.
Dans l'un et dans l'autre un ou plusieurs documents sont accordés
un rang privilégés vis à vis d'autres documents.
En Anglais, on parle de
"information retrieval systems" et de "search engines." Bien sûr on
cherche et on extrait, mais il y a aussi un élément de choix. Moi, j'aime
la terminologie des années 1930: "Machines à sélectionner".
3.2. Représentation.
Nous créons des abrégés, des fiches, et autres
représentations descriptives de documents.
Ces représentations peuvent servir comme substitut du document original. Nous
créons des metadonnées (metadata) qui décrirent les
données (data). En fait, nous faisons
des représentations bibliographiques.
Il y a une continuité entre la très courte entrée d'un index, et la version
complète d'un document comprenant une description bibliographique extensive.
À la base, nous dérivons de nouvelles représentations à partir de
documents existents.
3.3. Usage
Il est difficile de prédire l'usage de documents. D'habitude nous ne savons pas qui va
utiliser un tel document.
Peut-être que personne
ne l'utilisera. Normalement nous ne savons pas si un document a été lu
soigneusement ou examiné superficiellement -- ou bien
si on a examiné le document entier ou consulté une petite partie.
Surtout nous ignorons les conséquences intellectuelles ou
practiques de cet examen du document. La consultation des metadonnèes se
dèroule comme la consulation des données (d'un
document), sauf que les metadonnées sont bien brèves et qu'il y a
moins de base pour comprendre l'intention de l'auteur (l'indexeur).
4. Structure.
Regardons des exemples de sélection et de représentation.
4.1. L'indexation automatique. Avec les documents numériques on peut utiliser des systêmes
diverses d'indexation automatique par logiciels. Le systême KWIC arrange chaque mot du
document (avec ses mots adjoints pour offrir un contexte) en liste alphabetique. Chaque ligne d'un
index KWIC décrie un toute petite partie du document. La totalité des lignes KWIC dérivées du
document constitue un représentation mechanique du document entier. Les systêmes sous forme
vectorielle (par exemple SMART) créent des représentations
mechaniques plus
complexes.
4.2. Un catalogue de bibliothèque. Considérons la creation des fiches bibliographiques soit pour
un fichier ou bien comme données pour un catalogue online. On assemble les données
bibliographiques qui représentent un livre. Quelques données
sont dérivées du document même: le
titre; le nom de l'auteur; l'année d'édition).
D'autres données sont dérivées d'autres sources
(par exemple un bibliographie nationale, un thesaurus). Une fiche de catalogue est une
représention d'un livre, suivant les techniques et régles
conventionelles à l'égard de la forme,
du contenu, et de l'origine du livre
(e.g. ISBD, AACRII, LCSH, LCC).
Cependant, les metadonnées crées par le documentaliste
peuvent être modifiées, voire normalisées, par
les liens
syntactiques imposée par l'éditeur du catalogue:
EM
(Employer); EP (Employé pour); etc, et l'harmonisation des noms personels.
En parallèle, l'usager de la bibliothèque veut poser un question.
Il est probable que sa requête ne correspondra pas
exactement à la forme des entrées du catalogue, et donc
qu'une version modifiée de cette requête devra être
dérivée afin d'y correspondre
plus précisément.
Il faut donc que la terminologie de la question s'accorde
avec la terminologie du
cataloge.
Dans le mesure où une
correspondance existe, l'ensemble de documents pertinents est obtenue.
De plus, les cataloges automatisés arrangent généralement les
resultats obtenus
en ordre alphabétique avant de présenter les données.
La figure suivante montre ce procédé.
Documents
Saisie
Fiches
Liens syntactiques
Catalogue
Requête
Formulation
de la requête
Requête
formulée
Recherche dans la catalogue
Données retrouvées
Mise en ordre des données retrouvées
Presentation des
données retrouvées
Nous pouvons observer que le
procédé contient une
suite d'opérations
(vertes et bleues)
et que chaque opération
produit un nouvel ensemble
(rouge)
d'objets à partir d'un ensemble (rouge)
d'objets précédents.
Notons que nous pouvons regarder le catalogue entier comme un
document complexe qui représent la collection entière.
En même temps, si nous considérons un
niveau moins agrége, nous pouvons regarder le catalogue comme un ensemble de fiches
individuelles (elles-mêmes des petits documents) chacune
représentant un livre dans l'ensemble
de livres qui constituent la collection.
Chaque index (auteur; titre; mot-clef; classification) est un
sous-ensemble du cataloge.
On trouve que chaque étape
produit un nouvel ensemble d'objets à partir d'un ensemble
précédent à travers quelques opérations
et qu'il n'y a que deux catégories d'opérations.
1. Une catégorie
d'opérations
(bleues)
arrangent (misent en ordre, partitionent) les membres d'un
ensemble. Nous comprenons dans cette catégorie un ordre total (strictly ordered set),
des ensembles faiblement ordonnés (weakly ordered set) - surtout l'ordre
binaire à deux sous-ensembles: des données retrouvées et des données non-retrouvées -- et aussi la combinaison de
deux ensembles pour fair un sur-ensemble.
2. L'autre catégorie d'opérations
(vertes) comprend les transformations qui modifient
des membres
d'un ensemble. La dérivation des fiches (ou bien des lignes KWIC ou représentations
vectorielles) des documents originaux est de cette seconde catégorie.
Ces deux catégories d'opérations sont aussi les deux
espèces d'activités que nous avons
notés auparavant dans la section "Que faire avec les documents?":
La sélection; et la création de
représentations (ou versions) de documents. Si on analyse les systêmes
bibliographiques, de recherche d'information,
et de filtrage, on trouve toujours cette structure:
une châine d'opérations sur des ensembles de
données qui produisent toujours un ensemble
nouveau, soit (re)ordonné, soit transformé, sans exception.
Pour le moins, dans les enquêtes
du Dr Christian Plaunt et moi-même, nous n'avons trouvé
aucune exception jusqu'ici.
It parâit que ce
formule caracterise tous systême opérationel pour
l'organisation du savoir.
(Buckland & Plaunt 1994; Plaunt 1997).
5. Plusieurs Vocabulaires Co-existent
Tout systême à sélectionner du savoir inclue de multiples
vocabulaires. Même dans des cas
primaires, par exemple quand un texte non-édité est parcouru
avec une requête non-éditée, il y a au moins deux vocabulaires:
1. Le vocabulaire de l'auteur du document - ou bien les vocabulaires
de plusieurs auteurs; et
2. Le vocabulaire du chercheur.
Dans les systêmes opérationnels actuels, on trouve, d'habitude, beaucoup de
vocabulaires simultanés. Dans un catalogue de bibliothèque, par exemple, on trouverait trois
autres vocabulaires:
3. Le vocabulaire d'indexation du documentaliste, qui modifie ou
supplemente le vocabulaire
de l'auteur.
4. Les liens syntactiques -- EM (Employer); EP (Employé
pour); etc. -- pour harmoniser ou
corriger les vocabulaires des documentalistes;
5. Le vocabulaire du chercheur tel que formulé dans une requête.
En bref, il y a toujours des vocabulaires multiples en jeu.
L'espoire que tous ces
vocabulaires soient indentiques ou se harmoniseraient
est malheureusement futile.
Si on regarde plusieurs systèmes de sélection, les
vocabulaires différents foisonnent! Voici un
exemple: J'ai voulu chercher des livres et des articles sur
"Coastal pollution" (La pollution des côtes marines)
dans MELVYL, le catalogue
online de l'University of California, et MEDLINE. Ni l'un, ni l'autre
utilisent la phrase "Coastal pollution" et une recherche booléenne
avec "coastal" et "pollution" n'a rien trouvé, malgré que
des documents pertinents existaient dans les deux
systèmes.
Dans le cataloge MELVYL utilisant le Library of Congress Subject Headings: On a du chercher
sous: Marine pollution; et ensuite: Coastal zone management; Water -- Pollution; Petroleum
industry and trade; Beach erosion; Coasts; Barrier islands;
Coastal changes; etc.
Mais dans MEDLINE, utilisant MeSH, on a du employé Seawater, et ensuite: Water pollution;
Bacteria; Water microbiology; Air pollution; Environmental monitoring; Bathing beaches;
Environmental pollution; etc.
Remarquez la variété et le peu que les deux listes
ont en commun.
Ces termes d'indexation sont, certes, justifiables,
mais qui pourrait possiblement en imaginer la moitié?
Ici nous
avons rencontré trois vocabulaires différents: LCSH, MeSH, et la mienne.
6. Correspondances et associations entre vocabulaires
C'est precisement à cause de cette multiplicité de vocabulaires,
qu'il y a toujours la possibilité d'une incompatibilité lors de la
transition entre vocabulaires, d'une dissonance de sens. Un chercheur
peut employer le terme A et un auteur a employé le terme B. Ils peuvent
vouloir indiquer le même sens -- des synonymes.
Cependant, il
est possible que tous les deux aient employé le terme A pour indiquer
des sens différents -- des homographs.
Les vocabulaires intermédiaires (que ce soit celui du documentaliste,
une requête formulée, ou la structure syndétique) peuvent
être
considéréés comme visant à normaliser l'usage
des termes afin
de rectifier toutes les discordances. L'index du documentaliste rectifie le
titre donné par l'auteur en représentant le
sujet du document à
travers un vocabulaire standardisé. Les chercheurs
expérimentés savent
comment modifier leurs requêtes ou celles des autres d'une
façon telle que le système y répondra utilement.
Il y a autant de re-représentations
que de transitions d'un vocabulaire à un
autre. Chacune de ces re-représentations présente une
opportunité pour rectifier les dissonances entre le chercheur
et le document, mais
offre aussi la possibilité à de nouvelles dissonances
d'émerger.
Un bon intermédiaire de recherche (humain ou informatisé) pourrait en savoir
assez pour demander un changement de terminologie et l'adaptation
du vocabulaire du système.
7. Une Definition de "Vocabulaire"
Nous avons parlé de "vocabulaire" comme si c'était un langage
ordinaire. Mais si nous croyons
que le concept de vocabulaire est important pour les systême à
sélectionner du savoir, il nous faut une définition technique,
précise, et suffisante dans le métier de documentaliste.
L'Oxford English Dictionary (1989, vol 19, 721) offre
quatre définitions de
"Vocabulary":
1. Une ensemble ou liste de mots avec des explications brèves
de leur sens;
2. L'étendue du langage d'une personne, classe, métier ou autre.
3. La totalité ou agrégation des mots composant une langue; et
4. Figurativement, un ensemble de formes artistiques ou stylistiques,
techniques, mouvements, etc., à la
disposition d'une personne particulière, etc.
La notion fondamentale est que "vocabulaire" dénote un
énumeration de
différentes formes d'exprimer du sens, le répertoire des formes
représentatives.
C'est à dire que le répertoire de
termes d'indexation est le vocabulaire du documentaliste.
Les metadonnées comme langue
Dans les systême d'indexation les termes sont maintes fois
des adaptions plus ou moins
artificielles de la langue quotidienne (par exemple: God -- Knowableness -- History of Doctrines --
Early Church, ca. 30-600) ou emploient une notation artficielle (par exemple "330" signifie
"Sciences Economiques" dans la Classification Décimale de Dewey.
Ce sont des systêmes pour
coder le savoir. Evidemment chacun est une espèce de langage.
Décrire est une activité de la
langue. On a reconnu depuis longtemps que les systêmes d'indexation sont des langues. On
parle aujourd'hui de "metadonnées," mais avant
"metadonnées" on parlait de "langues
documentaires," "langues d'indexation," ou bien "metalangues.
(Citons Maurice Coyaud, 1966).
On peut, donc, utiliser le mot "vocabulaire" pour dénoter le repertoire de n'importe quelle
langue documentaire: Les termes d'un thesaurus; les nombres d'une
classification; les vedettes-matières; les valeurs
d'une catégorisation. Dans le cadre de la documentation on peut employer le terme "vocabulaire"
pour dénoter le répertoire de n'importe quelle champ MARC ou toute autre forme d'ensemble de
metadonnées. C'est un concept puissant parce que, comme je le disaist, toute
espèce de systême à
sélectionner du savoir comprend une châine d'opérations sur des ensembles de données qui
produisent toujours un ensemble nouveau. Le répertoire de chaque
ensemble successif est
le vocabulaire de cette ensemble. Ainsi ce concept de vocabulaire est devenu
un concept tout à fait
central.
9. Les langages humains tendent à être imprécis
Les vocabulaires tendent à être imprécis pour deux principales raisons:
1. Il y a, peut-être un manque de familiarité.
Les termes sont peu
connus. Qui sait que pour trouver des
documents touchant les autmobiles, it faut chercher sous "TL 205" dans la classification de la Library of Congress Classification,
sous "180/280" dans la classification des brevets de l'U.S. Patent Office, et sous "3711" dans la Standard
Industrial Classification? Evidemment un index ou dictionnaire reliant
notre langue quotidienne à chaque langue documentaire serait
très utile. (Buckland with others 1999 [Dlib]).
Mais un index est aussi nécessaire
quand un langage "naturel" est utilisé pour la
classification. Dans les
statistiques officielles de commerce international des Ètats-Unis,
on ne trouve pas de commerce en "automobiles," qui n'existent
pas dans leur indexation en langue naturelle. On trouve des données
statistiques si on cherche sous "cars", mais ces donn´es
sont pour les wagons de cheimin de fer! Il faut chercher les automobiles chez "Passenger motor vehicles, spark ignition
engine," un terme d'indexation assez descriptif, mais inattendu.
2. Par ailleurs, la terminologie reste imprécise parce que l'emploi des mots est dynamique. La
langue est une chose vivante. Ce qu'un mot signifie change.
À mon avis
Si l'analyse que j'ai présenté est correcte les
conséquences sont nombreuse et importantes.
Les systêmes d'organisation du savoir sont à la base des
systêmes de langues, de vocabulaires,
et ce qui signifierait qu'ils seront toujours imprécis.
Les théories formelles de l'information, qui utilisent la logique, l'entropie, le calcul de
l'incertitude, et qui sont appréciées et prestigieuses au sein des
sciences de l'information,
resteront toujours incompletes, utiles, peut-être,
mais inachevées.
La plupart des recherches de "digital libraries" s'occupent de questions
d'infrastructure, et non pas de problêmes centraux pour les systêmes
d'organisation du savoir.
Ces problèmes centraux concernent la langue, la représentation, l'explication semiotique de
"...tout indice concret ou symbolique, conservé ou enregistré, aux fins de représenter, de
reconstituer ou de prouver un phénomène ou physique ou intellectuel."
References
Anon. (1937). La terminologie de la documentation. Coopération Intellectuelle 77, 228-240.
Buckland, M. K. 1999. The Landscape of Information Science: The American Society for
Information Science at 62. Journal of the American Society of Information Science 50, no 11 (1999):970-974.
http://www.sims.berkeley.edu/~buckland/asis62.html
Buckland, M. K. 1999. Vocabulary as a Central Concept in Library and Information Science. In
Digital Libraries: Interdisciplinary Concepts, Challenges, and Opportunities.
Proceedings of the Third International Conference on Conceptions of Library and
Information Science (CoLIS3, Dubrovnik, Croatia, 23-26 May 1999. Ed. by T. Arpanac et
al. Zagreb: Lokve, pp 3-12.
http://www.sims.berkeley.edu/~buckland/colisvoc.htm
Buckland, M. K. 1997. What is a "document"? Journal of the American Society for Information
Science 48, no. 9: 804-809.
http://www.sims.berkeley.edu/~buckland/whatdoc.html
Similar text in Document Numérique (Paris) 2, no. 2 (1998): 221-230.
Buckland, M. and others. 1999. Mapping Entry Vocabulary to Unfamiliar Metadata Vocabularies
D-Lib Magazine 5 (1) January 1999. Online at:
http://www.dlib.org/dlib/january99/buckland/01buckland.html
Buckland, M. K. & C. Plaunt. 1994. On the Construction of Selection Systems. Library Hi Tech
12:4:15--28.
http://www.sims.berkeley.edu/~buckland/papers/analysis/analysis.html
Coyaud, M. 1966. Introduction a l'étude des langages documentaires. Paris: Klincksieck.
Plaunt, C. 1997. A Functional Model of Information Retrieval Systems and Processes.
Ph.D. dissertation, School of Information Management & Systems, University of California, Berkeley.