Logo Université des Antilles et de la Guyane
6. BDD biblioSommaireAller plus loin
GEREC-F
DEMOLI

Points de départ pour chercher des informations sur le sujet d'un travail de recherche en sciences du langage


7. Concepts et méthodes de recherche d'information

Cette section est une présentation rapide, et sans prétention à la complétude, de quelques concepts et méthodes utiles dans le domaine de la recherche d'information.

7.1. Précision, rappel ...

Si vous ne baignez pas encore dedans, ce sera bientôt le cas : de nos jours, toute méthode de recherche d'information traduit ses résultats en termes de précision et de rappel ; et comme tout, par ailleurs, s'exprime en termes de recherche d'information — c'est à la mode —, en fait, tout s'exprime, ou s'exprimera bientôt, en termes de précision et de rappel. Plus un article scientifique, dans quelque domaine que ce soit, n'a de chances d'être accepté par une revue ou une conférence s'il ne comporte pas un ou deux petits tableaux résumant des résultats en termes de précision et de rappel, quel que soit par ailleurs le sujet. Alors, si vous ne voulez pas passer pour un benêt au prochain réveillon en famille, familiarisez-vous vite avec ces notions-clés : vous pourrez étonner votre oncle en lui parlant du mauvais rappel de son procédé de pressage des citrons.

Toute recherche d'information se fait sur une base réelle de documents accessibles, ensemble fini mais peut-être très grand que nous appelons D.

Si vous faites une recherche, c'est que vous avez (probablement) un centre d'intérêt particulier. Dans l'ensemble de tous les documents possibles, il y en a donc qui sont susceptibles de vous intéresser, parce qu'ils relèvent réellement de vos thèmes d'intérêt particulier ; appelons ce sous-ensemble intéressant D+. Par ailleurs, le reste des documents, D–, est l'ensemble des documents qui ne tombent pas dans votre thème d'intérêt. En supposant que le critère de distinction est binaire, ces deux sous-ensembles forment une partition de l'ensemble total des documents, c'est-à-dire que : D+ ∪ D– = D, et que D+ ∩ D– = Ø. On appelle souvent les documents de D+ les documents positifs et les documents de D– les documents négatifs.

Lorsque vous faites concrètement une recherche d'information, vous espérez que le système que vous utilisez va vous trouver tout ce qui vous intéresse, et ne pas vous faire perdre votre temps avec des documents qui ne vous intéressent pas. En d'autres termes, vous voulez qu'il vous retrouve l'ensemble des documents de D+, et qu'il laisse de côté les documents de D–. En pratique, le système vous donne un ensemble de résultats, supposés (bien entendu) tous positifs, que nous allons noter R. Rien n'étant parfait, R ne coïncide pas forcément exactement avec D+ (cf. patatogramme ci-dessous).

Résultats d'une recherche d'information

Résultats d'une recherche d'information

En pratique, donc, le système « oublie » parfois des documents qui vous auraient intéressés (partie de D+ qui n'est pas recouverte par R), et vous sort en revanche des documents qui se révèlent être en-dehors de votre centre d'intérêt (partie de R qui recouvre une partie de D–). Dans le jargon de la recherche d'information, les « bons » résultats (la partie de R qui coïncide bien avec D+, autrement dit, les bonnes réponses) sont appelés des vrais positifs ; et les documents sans intérêt pour vous que le système ne vous a, à juste titre, pas présentés (la partie de D– qui n'est pas recouverte par R) sont appelés des vrais négatifs. Au contraire, les résultats ramenés par le système alors qu'ils sont en réalité sans intérêt pour vous (partie de R qui recouvre D–) sont appelés des faux positifs, puisqu'ils sont classés comme positifs, mais par erreur. Et symétriquement, les documents intéressants que le système a oublié de ramener (partie de D+ non couverte par R) sont appelés des faux négatifs. En résumé :

VP =  ∩ D+ 
VN =  R' ∩ D– 
FP =  ∩ D– 
FN =  R' ∩ D+ 

(où R' dénote le complémentaire de R dans D).

Les termes de précision et de rappel formalisent les notions correspondant à la capacité du système de recherche d'information (1) à ne pas trop vous présenter de résultats sans intérêt (plus le taux de résultats pertinents est élevé, plus on considère la recherche d'information comme « précise »), et (2) à celle à ne pas trop oublier de documents intéressants (plus le système réussit à retrouver de documents positifs, plus il a de « rappel » relativement à D+). On définit donc la précision comme le nombre de documents intéressants dans R rapporté au nombre total de documents dans R ; et le rappel comme le nombre de documents intéressants dans R rapporté au nombre total de documents positifs (dans D+). Ce qui s'écrit encore :

Prec =  | R ∩ D+ |/| R |
Rapp =  | R ∩ D+ |/| D+ |

ou encore :

Prec =  VP/(VP+FP)
Rapp =  VP/(VP+FN)

Il existe également deux notions complémentaires de la précision et du rappel, que vous aurez sans doute tendance à utiliser si vous êtes du genre à voir les verres à moitié vides plutôt qu'à moitié pleins : ce sont les notions de taux de silence et de taux de bruit. Alors que le rappel mesure ce que la recherche d'information n'oublie pas, le silence mesure ce qu'elle oublie ; et alors que la précision mesure ce qu'elle ramène d'intéressant, le bruit mesure ce qu'elle ramène d'inintéressant. En d'autres termes :

Silence =  | R' ∩ D+ |/| D+ |
Bruit =  | R ∩ D– |/| R |

ou encore :

Silence =  FN/(VP+FN)
Bruit =  FP/(VP+FP)

Laptop Computers

7.2. Éviter d'engendrer soi-même du bruit ou du silence

Notez bien que dans les systèmes de recherche d'information à base de mots-clés, et qui sont à l'état de l'art actuel (ex. moteurs de recherche sur internet), il n'existe pas de cas où le système « oublie » réellement des documents contenant les mots-clés que vous demandez, ni de cas où le système vous donne par erreur des documents ne contenant pas vos mots-clés. Bref, il n'y a pas de grossière erreur algorithmique.

Ceci n'empêche pas l'usager de ressentir souvent une certaine insatisfaction devant les résultats : vous l'avez constaté comme tout le monde, vous récupérez souvent des brassées de documents qui ne vous intéressent pas du tout, alors que vous avez le sentiment de passer à côté de documents qui parlent exactement de ce que vous cherchez.

L'origine de cette inadéquation entre vos attentes et les résultats de la recherche n'est pas informatique à proprement parler. Elle a parfois à voir avec des incompatibilités de normes d'encodage, par exemple lorsque vous cherchez « fédération » et qu'un document encodé en LaTeX ancienne mode, en Postscript, ou en RTF, vous échappe parce qu'il transcrit le caractère « é » par une combinaison du type « \'e », « e' », ou « \'e9 », et contient donc à la place une chaîne « fe'de'ration » ; ou encore lorsque vous cherchez une référence au royaume mythique de « Laputa » et que suite à des transcriptions spécifiques de certains espacements typographiques, vous récupérez des pages concernant le film uruguayen « En la puta vida ».

Cependant, le plus souvent, l'inadéquation vient plus simplement de vous. Plus précisément, elle tient au choix des mots-clés que vous utilisez pour la recherche : vous connaissez votre thème d'intérêt, et certains mots-clés vous semblent « naturellement » refléter très exactement ce thème d'intérêt, alors que ce n'est pas le cas. Comment cela est-il possible ? Examinons quelques cas concrets.

Bruit :

Silence :

Comme on peut le voir à travers ces exemples, le manque de pertinence de l'ensemble des résultats vient souvent d'un mauvais choix du ou des mots-clés utilisés pour effectuer sa recherche. Dans certains cas, un mot utilisé sans ambiguïté dans un domaine particulier (ex. du mot « relative » dans un cours de linguistique) se révèle servir à de nombreux autres usages dans de nombreux autres domaines. C'est le problème auquel on se réfère fréquemment, dans le domaine de la recherche d'information en langue naturelle, sous le nom d' « ambiguïté des termes ». Il est clair, on peut le noter au passage, que l'ambiguïté dont il s'agit n'est pas une ambiguïté du mot en discours (dans un cours de linguistique, on n'éprouve jamais le besoin de préciser à chaque fois de quelle « relative » il s'agit), mais surgit dans un contexte artificiel qui supprime les spécificités de domaines en classant tout dans un même grand sac.

Quoiqu'il en soit, il vous faut expérimenter des moyens de mieux cibler votre recherche afin de récupérer un ensemble de résultats exploitable (c'est-à-dire contenant un nombre convenable de résultats utiles, qui ne soient pas noyés dans les résultats inutiles). Voici quelques conseils élémentaires :

7.3. Autres utilisations latérales des moteurs de recherche

Surveiller les fréquentations des pages web

L'une des difficultés lorsqu'on manque d'expérience dans la recherche d'information sur la Toile (il en a déjà été question plus haut, notamment aux §1.4 et §6.2) est de savoir distinguer l'information sérieuse de l'information biaisée, piégée, tendancieuse, manipulatrice, ou simplement captatrice. On a vu qu'il n'existait pas de recette magique, puisqu'aucune autorité supérieure de certification ne « règne » sur Internet. Il existe cependant divers indices plus ou moins fiables, le plus simple à évaluer étant le fait que le document soit hébergé sur le serveur d'une institution scientifique (université ou organisme de recherche), d'autres faisant appel au « flair » rhétorique du lecteur.

Cependant, quoiqu'on fasse, le contenu textuel du document ne permet pas à lui seul d'éliminer tous les doutes dans tous les cas. Il est en effet possible (et même classique) qu'une information semblant idéologiquement neutre soit diffusée par une source travaillant à la diffusion d'une certaine idéologie, dans le seul but de « rabattre » des internautes non-avertis vers ses circuits d'information.

Dans de tels cas, l'un des critères les plus déterminants pour savoir si l'on a affaire à une source digne de confiance scientifique ou non est d'examiner le voisinage de la page pour voir à quel type de site elle appartient — et, le cas échéant, à quelle nébuleuse de sites celui-ci appartient.

Prenons un exemple : vous cherchez des documents sur les anciens cultes où l'on vénérait les arbres ; vous faites donc une recherche sur quelques mots-clés innocents, comme « anciens cultes arbres forêts ». Au fil des résultats, vous tombez sur une page mise en ligne sur le site www.terreetpeuple.com qui donne quelques informations assez détaillées sur d'anciennes divinités gauloises.

« Terre et Peuple » est un mouvement fondé par un intellectuel d'extrême-droite, affilié d'abord au F.N., puis au M.N.R., représentant le mouvement « néo-païen » de l'extrême-droite française, militant pour une « reconquête identitaire » des « peuples européens » (dans les termes du jargon de cette mouvance politique). Ces idées n'empêchent pas certaines des publications de ce mouvement d'être solidement documentées, et donc vous trouverez sur une page web comme celle citée plus haut des renseignements factuels précis sur les religions des anciens celtes, comme vous les trouveriez sur un document émanant d'un site universitaire (d'ailleurs certains membres de ce type de mouvement sont des universitaires). Il est cependant évident qu'il serait totalement hors de propos de citer comme référence, dans un travail universitaire, une publication d'un mouvement politique d'extrême-droite.

Comment faire, donc, pour faire la différence entre une page qui dit que les Gaulois vénéraient les arbres et le dieu Lug, et émise par un site sérieux, et une page disant entre autres la même chose, mais émise par un site idéologiquement tendancieux ?

La réponse : il ne faut jamais ajouter une page web à sa bibliographie sans explorer un peu son voisinage.

Les fréquentations d'un site web en disent souvent bien plus sur son positionnement réel (et tout au moins le disent bien plus clairement) que toutes les explications fournies par les auteurs eux-mêmes.

Qui est derrière un nom de domaine internet ?

Si vous avez vraiment du mal à discerner qui est à l'origine d'un site web, vous avez toujours la possibilité d'accéder à l'information concernant le titulaire de la propriété légale d'un certain domaine internet. L'usage internationalement répandu veut en effet que l'identité légale de celui qui a déposé la demande d'utilisation exclusive d'un certain nom de domaine auprès des enregistreurs accrédités (registrars), gérant les tables DNS (domaine name servers), soit publique et accessible à tous au travers d'une base de données appelée whois.

Ceci ne vous dit en général pas qui a rédigé précisément telle ou telle page web, mais cette ressource vous garantit qu'aucun site web ne puisse rester complètement anonyme. Pour les utilisateurs avertis, ce système offre la possibilité de détecter des connexions entre différents sites web (plusieurs noms déposés par la même personne, société ou association), ou entre un site web et une personnalité ou organisation connue par ailleurs.

Chaque enregistreur accrédité tient à jour, dans sa propre base whois, la liste de ses clients (personnes physiques ou morales ayant déposé un nom de domaine par son intermédiaire), mais offre également accès, sur un principe de parité, aux informations contenues dans les bases whois de tous les autres enregistreurs accrédités connus. Peu importe donc par lequel d'entre eux on entame une recherche de ce type.

Exemple d'enregistreur accrédité sérieux, offrant un accès à sa base whois : GANDI (http://www.gandi.net).

Repérer les expressions complexes utilisées dans un certain domaine

Les textes scientifiques ou techniques abondent en expressions complexes semi-figées (par exemple, composés du type N-de-N, N-Adj, ou V-N) qui se cristallisent en unités signifiantes dans leur domaine spécialisé. Grâce au corpus gratuit de plusieurs milliards de mots que constitue le web, et grâce aux outils de recherche dans ce corpus que constituent les moteurs de recherche (certes imparfaits et pas vraiment faits pour ça, mais néanmoins bien utiles), vous pouvez appréhender ce type d'expressions autrement que par votre simple intuition : vous pouvez en effet en quantifier l'usage.

Retrouver une référence perdue

Vous avez lu quelque part il n'y a pas longtemps que les « US twin deficits threaten global economic stability », et vous avez parlé de ça à votre tante et à votre beau-père. Ceux-ci ont immédiatement répondu que vous aviez dû voir ça sur le site web d'un parti trotskiste séditieux, ou dans le bulletin Socialist Worker, et que ce n'était pas sérieux. En fait, c'est le Global Policy Forum (une organisation consultative des Nations Unies) qui le dit, mais vous ne vous en souvenez plus exactement.

Vous êtes tombé l'autre jour sur un article qui vous a semblé intéressant sur les racines africaines du créole, et vous l'avez enregistré sur votre disque dur ; mais maintenant qu'il s'agit de le citer, vous vous apercevez que vous n'avez pas noté l'URL où vous l'avez récupéré. En plus, vous vous mettez à douter (après avoir lu ce guide, peut-être ?) des étais scientifiques de l'article et vous voudriez reprendre un peu la page web pour en examiner les liens et voir sur quelles sources il s'appuie. Mais où était-il, déjà ?

Dans ces deux cas, vous êtes face à un même problème : comment faire pour retrouver la source perdue d'une citation, ou l'adresse perdue d'un document ? Vous devez retrouver une source à partir d'un contenu.

Pour cela, vous pouvez faire une recherche englobant le plus grand nombre possible de mots dont vous vous souvenez : plus vous ajoutez de mots du document d'origine, plus vous avez de chances de retomber dessus (il est rare que deux documents emploient exactement la même formulation, même s'ils parlent de la même chose).

Si vous avez sous les yeux le texte exact dont vous voulez retrouver la source, le mieux est encore de rechercher, en expression exacte (entre guillemets anglais), une ou deux phrases du document d'origine, reprises mot pour mot. S'il s'agit bien d'un texte que vous avez trouvé sur la Toile, cette méthode vous garantit avec une quasi-certitude de le retrouver (que deux textes écrits indépendamment aient deux phrases exactes en commun est en effet extrêmement improbable).

Anecdotiquement, on peut noter que cette méthode rend définitivement dépassée une certaine forme de plagiat qui consiste à copicoller bêtement un texte trouvé sur Internet dans un document qu'on est supposé rédiger soi-même : ce que Google a trouvé, Google peut le retrouver. De nos jours, il n'y a plus que (certains) étudiants de début de première année de DEUG qui n'ont pas encore compris cela (et quelques autres rares exceptions). Pour plagier intelligemment, il faut récupérer des informations de plusieurs sources, les synthétiser, les reformuler ... et quand on arrive à faire ça, finalement, on fait déjà la moitié du travail de recherche : ce n'est plus du plagiat, c'est de l'érudition, et c'est considéré avec approbation par l'institution universitaire. Il ne reste plus qu'à avoir des idées.

Retrouver un document dont le lien est périmé

La méthode de la recherche de chaîne exacte peut également vous servir dans une autre situation : celle où vous cherchez à retrouver le nouvel emplacement d'un document dont le lien est périmé. La Toile est en effet un réseau extrêmement mouvant, et une URL valable à un moment donné peut très bien, quelques mois après, ne plus mener à rien — soit parce que le document n'est plus disponible, soit parce qu'il a changé d'adresse suite à une réorganisation du site (changement de la partie droite de l'URL) ou à un changement d'hébergeur (changement de la partie gauche de l'URL).

Cette situation est extrêmement fréquente : par analogie avec les atomes des éléments radioactifs, on dit que les pages web ont une faible demi-vie. La nécrose de portions entières de la Toile est d'ailleurs un phénomène qui commence à être bien connu des chercheurs en recherche d'information et qui a déjà fait l'objet d'études spécifiques (cf. par exemple « Sic transit gloria telae: Towards an understanding of the web decay », présenté à la treizième International World Wide Web Conference par des chercheurs d'IBM, Bar-Yossef, Broder et Kumar).

Lorsqu'une page web indexée a changé d'adresse, donc, un bon moyen de la retrouver est d'utiliser la méthode mentionnée ci-dessus pour retrouver l'emplacement d'un document dont on ne connaît pas l'adresse : faire une recherche de quelques mots très significatifs, ou mieux, de phrases entières, en chaîne exacte, sur un moteur de recherche.

Le cas de figure le moins favorable est celui où la page considérée a réellement disparu : soit elle n'est plus disponible du tout sur le Web, soit elle n'est plus indexée. Dans ce cas vous n'avez plus aucun moyen d'en accéder à une version actuelle.

Si malgré tout vous avez besoin de retrouver la page que vous cherchez, fût-ce dans une version passée, vous avez encore deux chances d'y arriver :


Contact :

 Pascal Vaillant 

( )