Recherche d'information

Infos
Abrégée en RI ou IR (Information Retrieval en anglais), la recherche d'information est la science qui consiste à rechercher l'information dans des documents - les documents eux-mêmes ou les métadonnées qui décrivent les documents -, dans des bases de données - qu'elles soient relationnelles ou mises en réseau par des liens hypertexte comme dans le World Wide Web, l'internet, et les intranets, pour le texte, le son, les images, le
Recherche d'information

Abrégée en RI ou IR (Information Retrieval en anglais), la recherche d'information est la science qui consiste à rechercher l'information dans des documents - les documents eux-mêmes ou les métadonnées qui décrivent les documents -, dans des bases de données - qu'elles soient relationnelles ou mises en réseau par des liens hypertexte comme dans le World Wide Web, l'internet, et les intranets, pour le texte, le son, les images, les données. Le Vocabulaire de la documentation (Paris, ADBS, 2004) distingue la recherche d'information de la recherche de 'information :
-recherche
d
information : « Ensemble des méthodes, procédures et techniques permettant, en fonction de critères de recherche propres à l’usager, de sélectionner l’information dans un ou plusieurs fonds de documents plus ou moins structurés ».
-recherche de information : « Ensemble des méthodes, procédures et techniques ayant pour objet d’extraire d’un document ou d’un ensemble de documents les informations pertinentes ». La recherche d'information est un domaine historiquement lié aux sciences de l'information et à la bibliothéconomie qui ont toujours eu le souci d’établir des représentations des documents dans le but d'en récupérer des informations, à travers la construction d’index. L’informatique a permis le développement d’outils pour traiter l’information et établir la représentation des documents au moment de leur indexation, ainsi que pour rechercher l’information. On peut aujourd'hui dire que la recherche d'information est un champ transdisciplinaire, qui peut être étudié par plusieurs disciplines, approche qui devrait permettre de trouver des solutions pour améliorer son efficacité. Au sens large, la recherche d'information inclut deux aspects :
- l'indexation des corpus, et
- l'interrogation du fonds documentaire ainsi constitué. En un sens plus strict, la recherche d'information pourrait se réduire au deuxième aspect ; mais la grande interdépendance des deux et la fréquente mise en œuvre de techniques communes dans le cadre de politiques d'intelligence économique a conduit à favoriser la première acception, comme l'atteste l'existence d'un important groupe de travail (SIGIR, Special Interest Group for Information Retrieval) dans l'association internationale ACM (Association for Computing Machinery), ainsi qu'une série de conférences organisées à ce sujet par le NIST : TREC (Text REtrieval Conference, mais traitant aussi d'aspects multimédia).

Introduction

Avec l'apparition des premiers ordinateurs naquit l'idée d'utiliser des machines pour automatiser la recherche d'information dans les bibliothèques. Les premiers systèmes sont utilisés par des libraires et permettent d'effectuer des recherches booléennes, c’est-à-dire des recherches où la présence ou l'absence d'un terme dans un document conduit à la sélection du document. Ces recherches nécessitent plusieurs intermédiaires et surtout de gros moyens : il faut en effet créer une nomenclature permettant de décrire l'ensemble des documents et sélectionner pour chaque document un ensemble de mots-clés. Cette description par mots-clé (indexation) suppose du libraire une connaissance suffisante pour traduire une question, qui peut être plus ou moins précise, en un ensemble de descripteurs. De plus, le jeu de descripteurs n'est souvent ni suffisant, ni assez précis pour décrire n'importe quel document. Il se peut aussi, que pour des problèmes de synonymie, certains documents répondant à la question d'un utilisateur puissent ne pas être retrouvés. La description manuelle est donc un processus lent et qui ne garantit pas de bons résultats. Or, il est tout à fait possible d'extraire directement du texte un ensemble de descripteurs. Les premières expériences montrent même que cette approche est tout à fait viable et compétitive par rapport à l'indexation manuelle. L'utilisation grandissante des logiciels de traitements de texte, et par là même la mise à disposition de quantités de plus en plus importantes de textes directement interprétables par l'ordinateur va alors entraîner le développement rapide des modèles de RI. Ces deux aspects, l'indexation et la recherche sont au cœur des problèmes abordés par la RI. L'indexation et la recherche ont très rapidement évolué d'une modélisation booléenne de la recherche (un terme représente ou ne représente pas le document dans le cas de l'indexation, un document répond ou ne répond pas à la question) à des modèles vectoriels ou probabilistes. La pertinence d'un document pour une question dans des modèles qui sont basés sur une représentation imprécise des documents et des questions s'exprime dans les modèles de RI sous la forme d'un score. Ce score ne permet plus une validation automatique des systèmes de RI. En effet, pour la question « le document doit contenir le mot chèvre
et
élevage », un document contenant le mot « chèvre » et « élevage » est une bonne réponse, contrairement à un document qui ne les contiennent pas. Lorsque la question devient « le document doit avoir pour thème l'élevage des chèvres », un document qui parle de soin des chèvres sans utiliser le mot « élevage » sera une bonne réponse, mais aura un score moins important qu'un document qui parle directement de l'élevage des chèvres. Il est donc impossible de prouver qu'un système de RI est performant puisque le score rend vague la notion de bonne réponse : un document répond plus ou moins bien à une question. La notion de pertinence d'un document pour une question émerge donc en même temps que les premiers systèmes de RI, avec les premières mesures permettant de comparer les différents résultats renvoyés par les systèmes de RI. Les premières mesures, encore largement employées aujourd'hui, sont la précision et le rappel. Un système de RI sera très précis si presque tous les documents renvoyés sont pertinents. Un système de RI aura beaucoup de rappel s'il renvoie la plupart des documents pertinents du corpus pour une question. En général, plus un système de RI est précis, moins il a de rappel et inversement. Très vite, des problématiques connexes se sont aussi greffées autour de la RI. Parmi les plus courantes et les plus utiles, l'interaction avec l'utilisateur permet d'obtenir progressivement des documents de plus en plus pertinents. Certains se sont ensuite essayés à simuler cette interaction, ou au moins une partie, en proposant des techniques permettant « d'enrichir » la question — en ajoutant par exemple des termes qui n'étaient pas dans la question originale. Cette technique est connue sous le nom d'expansion de requête. De la recherche documentaire proprement dite, le domaine évolue vers des tâches proches, comme la classification qui permet de regrouper entre eux des documents ayant des thématiques proches, le classement qui a pour but de classer les documents dans un ensemble de catégories prédéfinies. Puis, à mesure que la notion de document et d'unité d'information devient plus floue, les tâches d'extraction d'information et de résumé automatique apparaissent. Actuellement, le domaine regroupe plusieurs thématiques de recherche et évolue avec l'apparition de nouveaux types de corpus, de documents et de besoins d'utilisateurs. Les conférences et donnent un aperçu de la diversité des recherches menées aujourd'hui dans le domaine général de la RI.

Composantes

Prétraitements

La première étape en recherche d'information est d'établir ces techniques permettant de passer d'un document textuel à une représentation exploitable par un modèle de RI. Cette transformation est scindée en deux étapes distinctes et correspond à 'indexation des documents' :
- Il faut extraire d'un texte un ensemble de descripteurs. Ceux-ci sont la plupart du temps (après suppression des mots grammaticaux par exemple) l'ensemble des termes qui apparaissent dans un document, souvent transformés (lemmatisation, ...)
- À l'aide de ce jeu de descripteurs, il est possible de représenter le document par un vecteur dans l'espace des termes. Il est également possible d'utiliser des connaissances a priori sur la façon dont les termes sont répartis dans les documents suivant leur importance.

Recherche

Une fois les documents transformés, il est possible de rechercher ceux qui répondent le mieux à une question d'un utilisateur. Plusieurs approches peuvent être distinguées :
-L'approche ensembliste qui considère que l'ensemble des documents s'obtient par une série d'opérations (intersection, union et le passage au complémentaire). Le langage de requête SQL1 correspond à cette approche dite aussi de logique de premier niveau.
-L'approche algébrique (ou vectorielle) qui considère que les documents et les questions font partie d'un même espace vectoriel.
-L'approche probabiliste qui essaie de modéliser la notion de pertinence. Il est enfin possible d'utiliser des modèles capables d'interagir avec l'utilisateur, afin d'améliorer petit à petit les réponses du système de RI au cours d'une session - l'utilisateur indiquant à chaque fois les documents pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonctionnement du système de RI.

Mesures

En RI, la mise au point des modèles passe par une phase expérimentale qui suppose l'utilisation de métriques qui ont pour but de permettre la comparaison des modèles entre eux ou la mise au point de leurs paramètres. Ces mesures supposent connus un jeu de questions et les réponses pertinentes dans un corpus donné. Deux concepts simples comme le rappel (proportion de documents pertinents renvoyés par le système parmi tous ceux qui sont pertinents) et la précision (proportion des documents pertinents parmi l'ensemble de ceux renvoyés par le système) ont été étendus pour permettre une analyse fine des performances de système de RI.

Groupes sur la recherche d'information

Historiquement, la recherche d'information était faite dans les bibliothèques avec le protocole Z39.50 qui était maintenu par la Bibliothèque du Congrès. Ces travaux se poursuivent avec les protocoles SRW (Search / Retrieve via Web Services) et SRU (Search / Retrieve via URL).

Outils de recherche d'information

- DataparkSearch
- Lucene
- Mnogosearch
- Xapian
- Zettair

Voir aussi

- Moteur de recherche ;
- Système de recherche d'information ;
- Optimisation des moteurs de recherche ;
- Bibliothèque numérique ;
- Système d'information géographique ;
- Modèles cognitifs de la recherche d'information. ==
Sujets connexes
Association des professionnels de l'information et de la documentation   Bibliothèque   Bibliothèque numérique   Booléen   Classification   DataparkSearch   Document   Document électronique   Donnée   Espace vectoriel   Hypertexte   Index (base de données)   Indexation   Indexation automatique   Information   Informatique   Intelligence économique   Internet   Intranet   Lemmatisation   Lucene   Mnogosearch   Modèles cognitifs de la recherche d'information   Moteur de recherche   Métadonnée   National Institute of Standards and Technology   Sciences de l'information et des bibliothèques   Synonymie   Système d'information géographique   Système de recherche d'information   World Wide Web   Xapian   Z39.50   Zettair  
#
Accident de Beaune   Amélie Mauresmo   Anisocytose   C3H6O   CA Paris   Carole Richert   Catherinettes   Chaleur massique   Championnat de Tunisie de football D2   Classement mondial des entreprises leader par secteur   Col du Bonhomme (Vosges)   De viris illustribus (Lhomond)   Dolcett   EGP  
^