Le développement récent et explosif du World-Wide Web a relancé les travaux sur les outils de recherche d’information textuelle, devenus rapidement indispensables à la navigation sur Internet. Ce papier se propose de faire un tour d’horizon de l’état de l’art des moteurs de recherche sur Internet et de discuter des pistes possibles pour leur évolution.
The recent and explosive growth of the World-Wide Web has emphasized the urgent need for better search engines, which are at the heart of the navigation process on the Internet. This paper is a description of the state-of-the-art in search engine technologies, and explores the options available to search engine architects for building better tools.
Le développement considérable qu’a connu Internet ces dernières années, notamment à la suite de l’apparition du World-Wide Web, a conduit à une croissance exponentielle du nombre d'utilisateurs du réseau mais aussi à une croissance exponentielle du nombre de textes accessibles aux utilisateurs. Des quelques centaines de milliers de pages de texte accessibles en 1993, le stock d’information sur Internet atteint aujourd’hui quelques centaines de millions (350 millions en juillet 1998 d’après l’estimation de [BH98], avec un taux de croissance estimé à 20 millions de pages par mois.) Il est donc devenu impossible de naviguer sur cet océan de données et de localiser l’information souhaitée sans des outils appropriés. C’est ce qui a très rapidement motivé le développement d’outils d’aide à la navigation comme les annuaires, dont l’un des plus connus est Yahoo! (www.yahoo.com) et les moteurs de recherche, dont l’un des plus connus est AltaVista (www.altavista.com), les premiers adoptant une approche "manuelle" à forte valeur ajoutée éditoriale (de type "Pages Jaunes") et les seconds apportant une réponse plus " technologique" basée sur des outils informatiques beaucoup plus puissants (et en particulier plus exhaustifs) mais sans intelligence particulière.
Chacune des deux familles d’outils possède ses forces et ses faiblesses propres. Ainsi, la recherche d’informations commerciales ou la recherche de sites de référence est jusqu’à aujourd’hui plutôt l’apanage des annuaires, tandis que la recherche d’informations plus précises est en général plus facile sur les moteurs de recherche. Cependant, pour un public non averti, il est très difficile de faire la différence entre les deux approches, et les deux outils sont parfois confondus, ce qui est d’autant plus facile que les annuaires sont souvent alliés à des moteurs de recherche pour leur permettre de répondre à des requêtes trop spécifiques pour être dans leurs propres bases de données, tandis que les moteurs de recherche sont le plus souvent associés à des annuaires pour permettre de localiser des informations commerciales qui sont très difficiles à localiser par mots-clefs dans des documents indexés en texte intégral. Ainsi, les alliances Yahoo/HotBot, LookSmart/AltaVista, etc.
Un temps stars de l’Internet, les outils de navigation se sont fait voler la vedette en 1998 par la notion de "portail" (ou portal en anglais.) Il y a à cela une explication simple : le caractère incontournable des outils de navigation a fait de ces derniers, dans un contexte de plus en plus commercial, de formidables produits d’appel, capitalisant plusieurs dizaines de millions d’eye balls (c’est-à-dire d’utilisateurs) par jour. D’où l’idée naturelle, au-delà d’une simple valorisation par affichage publicitaire, de transformer les sites de navigation en véritables "galeries marchandes", en essayant de proposer à l’utilisateur (ou au client) les produits convenant le mieux à son profil. A cet égard, des librairies en ligne comme Amazon (www.amazon.com), ont bien compris l’avantage concurrentiel que pouvaient procurer des outils de commerce électronique intelligents. C’est ainsi qu’à chaque page d’information sur un livre sont indiqués les livres achetés le plus souvent par les clients en même temps que le livre recherché, ce qui est une information précieuse pour l’acheteur et pousse souvent à la consommation. De même, chaque notice descriptive de livre propose une sélection de critiques (positives et négatives) par les clients-lecteurs eux-mêmes, ce qui, pour qui sait lire entre les lignes, est là aussi extrêmement précieux.
Nous sommes donc en train d’assister à une véritable mutation des services d’aide à la navigation, et les années à venir promettent d’être riches en évolutions et en surprises. Pour autant, le "produit d’appel" des portails, que ce soit l’annuaire ou le moteur de recherche, n’a pas fini d’évoluer, car il est toujours très loin d’avoir atteint une maturité suffisante pour répondre réellement aux besoins des utilisateurs.
En effet, si le modèle de l’annuaire était l’évidence même au début du World-Wide Web, et si la recherche dans un annuaire de petite taille construit à la main est très simple, le nombre de sites référencés aujourd’hui sur un site comme Yahoo! est tel que la moindre requête peut générer un nombre de réponses bien trop grand pour que le résultat soit réellement exploitable. Ainsi par exemple, la requête "car" (voiture) retourne 8875 sites possibles. Ceci implique que les annuaires sont aujourd’hui confrontés au même problème que le problème auquel sont confrontés depuis le début les moteurs de recherche : comment ajouter de l’intelligence dans la sélection des réponses aux questions posées par les utilisateurs ? Et ce sans (ou avec le moins possible) d’intervention humaine, tant au niveau de l’outil de recherche lui-même qu’au niveau de l’utilisateur final.
Comme nous allons le voir, les challenges actuels et à venir des moteurs de recherche sont gigantesques, mais plutôt que d’essayer d’aborder le problème d’une manière purement technique, en supposant connu le problème à résoudre, nous allons plutôt essayer de définir le contexte dans lequel se situe l’outil de navigation et essayer de définir les "conditions aux limites" par rapport auxquelles toute solution technique soit se positionner.
Le premier et d’ailleurs principal problème des outils de recherche est la grande variabilité du profil de ses utilisateurs. En effet, si l’Internet de 1993 était composé exclusivement de chercheurs, d’ingénieurs et de "techno-avant-gardistes" éclairés, la réalité est aujourd’hui tout autre, et le grand public a investi le réseau. Par conséquent, les solutions d’hier – qui pouvaient satisfaire un public d’experts comprenant la difficulté qu’il peut y avoir à retourner la bonne réponse à la question "car" quand il y a plus de 7 millions de documents sur Internet contenant ce mot – ne peuvent plus satisfaire un particulier essayant de trouver un revendeur près de son domicile pour acheter son nouveau véhicule. En d’autres termes, la tolérance aux imperfections de l’outil est aujourd’hui beaucoup plus faible qu’elle ne l’était auparavant, et simultanément, la qualité globale des outils s’est globalement plutôt dégradée avec le temps, essentiellement parce que la course en avant technologique pour améliorer ces outils n’a pas pu compenser l’augmentation du nombre de documents à référencer. De plus, et cela ne fait que compliquer le problème, l’effort que le grand public est prêt à faire pour obtenir une information pertinente est extrêmement faible. Ainsi, d’après une étude portant sur plus de 1 milliard de requêtes du moteur AltaVista [SHMM98], les requêtes consistent en moyenne en 2.35 termes, le plus souvent imprécis et mal orthographiés, et 80% des requêtes ne comportent aucun opérateur. Qui plus est, 85% des utilisateurs se contentent des 10 premiers résultats fournis sur la première page (alors qu’ils ont potentiellement accès aux 200 premiers résultats) et 78% des requêtes ne sont pas modifiées dans le but de les améliorer.
Ces quelques chiffres, qui font froid dans le dos à n’importe quel architecte de moteur de recherche, ne doivent cependant pas cacher une autre réalité : l’Internet a également son lot d’utilisateurs experts qui utilisent au maximum de leur possibilité le langage de requête des moteurs. Ainsi, environ 10% des utilisateurs d’AltaVista effectuent des requêtes avancées (opérateurs AND, OR, NOT, NEAR, accès aux champs du code source HTML, etc.), et ces utilisateurs sont de plus en plus exigeants, tolérant mal l’orientation de plus en plus grand public des interfaces des moteurs de recherche.
Face à de telles contraintes, il convient de se poser plusieurs questions. Tout d’abord, que cherche vraiment chaque catégorie d’utilisateurs ? Quelle est leur "fonction d’utilité", c’est-à-dire, quel est le type de documents le plus à même de les satisfaire ? Et enfin, est-il vraiment possible d’utiliser un outil unique pour répondre aux besoins de chacune des catégories ?
La première de ces questions peut paraître stupide, mais elle est pourtant essentielle, même si elle n’a bien évidemment pas de réponse simple. En effet, il y a un monde entre la recherche de documentation sur les congrégations religieuses en Haïti dans le but d’écrire un livre et la recherche d’informations sur les scenarii chiffrés d’augmentation du niveau des océans en réponse à l’augmentation de l’effet de serre lié aux activités humaines. Dans le premier cas, en effet, toute information est bonne à prendre, et source d’inspiration, tandis que dans le second cas, seuls des documents très spécifiques auront un intérêt. Des études ont en effet montré que la satisfaction de la majorité des utilisateurs grand public est fortement liée à la présence des mots de leur requête dans le titre ou le résumé des documents qui leur sont proposés. Ceci explique probablement en partie pourquoi 85% des utilisateurs se contentent des 10 premiers résultats (qui sont précisément choisis, en général, pour cette raison là.) A l’inverse, la satisfaction des utilisateurs experts est beaucoup plus difficile à comprendre, puisqu’elle dépend généralement de la sémantique (et non de la forme) des documents retournés. Toutefois, il est probable qu’un utilisateur expert sera plus satisfait de trouver un long document de référence qu’une page d’accueil de serveur, et ce indépendamment du titre de la page.
Malgré ce constat de divergence forte entre les besoins des utilisateurs grand public et des utilisateurs experts (ou professionnels), il existe certains critères qui semblent être communs aux deux communautés. L’un de ceux-ci est la notion de "centralité" du document, c’est-à-dire le fait que le document soit très souvent référencé par d’autres documents sur l’Internet, ce qui est une indication de l’intérêt du document. Bien entendu, cette notion de centralité, qui semble pourtant être très intuitive, doit être définie avec soin pour avoir du sens. En effet, il ne suffit pas qu’un document D soit référencé souvent pour être un document intéressant, mais il faut aussi que les documents faisant référence à D soient eux aussi des documents intéressants ou des documents d’un site intéressant. Nous verrons plus loin que cette définition, en apparence bouclée, peut être précisée et utilisée pour mettre au point des mécanismes d’estimation automatique de pertinence (ranking en anglais) très performants.
Les fournisseurs d’information, c’est-à-dire les personnes à l’origine des documents accessibles sur le World-Wide Web, peuvent être classés en deux grandes catégories : les fournisseurs commerciaux (grand public) et les autres. Les fournisseurs commerciaux possèdent des serveurs dont la finalité est commerciale et ces serveurs n’ont d’intérêt que dans la mesure où ils sont référencés de manière efficace par les moteurs de recherche. Cette notion de référencement est donc devenue une notion essentielle dans l’Internet commercial et un certain nombre de sociétés proposent des services permettant d’assurer un référencement optimal de serveurs auprès des principaux moteurs du marché. Les fournisseurs d’information grand public (peut-on d’ailleurs parler d’information dans ce cas ?) ont donc tout intérêt, au moins en théorie, à investir lourdement dans la promotion de leurs serveurs, et ce d’autant plus que leur cœur de cible est, comme nous l’avons dit plus haut, un grand public qui n’est prêt à faire aucun effort pour trouver de l’information. C’est ainsi qu’ils font feu de tout bois pour essayer de détourner à leur avantage les mécanismes d’estimation automatique de pertinence utilisés par les moteurs pour sélectionner les documents : utilisation de texte caché contenant de nombreux mots-clefs parasites, utilisation abusive des balises META, etc., obligeant les moteurs à des contre-mesures toujours plus lourdes et compliquées afin de garantir une certaine qualité et "objectivité" aux résultats des requêtes. Il est à noter que l’utilisation de telles techniques est par ailleurs une nécessité dans la mesure où les pages d’accueil des serveurs commerciaux sont trè s souvent graphiques et ne contiennent par conséquent que très peu de texte susceptible de permettre leur identification par les moteurs de recherche (le problème ne se pose bien entendu pas avec les annuaires).
Le résultat de cette "guerre" est que les mécanismes d’estimation automatique de pertinence des moteurs de recherche sont devenus extrêmement complexes et par conséquent non intuitifs, rendant la tâche des utilisateurs experts encore plus difficile puisqu’il devient quasiment impossible aujourd’hui de se forger un modèle mental réaliste du fonctionnement des moteurs de recherche, et que ce modèle varie de toute manière d’un moteur à l’autre. C’est ce qui a conduit certains moteurs comme GoTo (www.goto.com) à choisir un algorithme de sélection différent et à l’afficher clairement : l’argent est utilisé pour classer les documents par pertinence décroissante, et plus on paye, mieux on est classé. Cette approche, qui a indubitablement l’avantage d’être un filtre extrêmement efficace, présente bien entendu de nombreux effets pervers, au premier rang desquels le défaut de conforter les positions dominantes, et a soulevé lors de son introduction de nombreuses protestations de la communauté Internet dans son ensemble.
Un autre résultat regrettable de la mise en place de contre-mesures par la majorité des moteurs de recherche est qu’il devient totalement illusoire de croire pouvoir exercer un contrôle réel sur le positionnement d’un site dans les résultats d’un moteur, et ce encore moins si l’on entend exercer ce contrôle sur plusieurs moteurs à la fois, puisque le document étant par essence unique, il ne peut pas être adapté spécifiquement à chaque moteur (sauf si, comme le font certains spammers, le document retourné par le serveur au moteur quand celui-ci fait sa moisson de documents n’est pas le même que celui retourné à un utilisateur normal visitant le site…)
A l’inverse ce qui précède, les fournisseurs d’informations non commerciales (qu’ils soient des particuliers ou des professionnels) mettent à disposition des utilisateurs de l’Internet des documents souvent intéressants (ce sont souvent des passionnés), mais ne se préoccupent pas en général de la promotion de ces documents, estimant que les personnes intéressées n’hésiteront pas à faire l’effort nécessaire pour les retrouver (ce qui est en général plutôt plus facile que pour les documents commerciaux car de tels documents contiennent souvent des termes très discriminants.) Mais comment faire en sorte que des tels documents, souvent très intéressants, ne soient pas masqués par des documents commerciaux mieux promus qu’eux ? Le problème reste entier, et c’est probablement l’un des challenges les plus difficiles posés aujourd’hui aux architectes des moteurs de recherche : comment maintenir une sorte de "service universel" dans un univers dont le développement est essentiellement tiré par l’argent.
Entre les fournisseurs d’information et les chasseurs d’information, les moteurs de recherche et les annuaires assurent une fonction essentielle de médiation et de mise en relation. Compte tenu des attentes très variées des différents acteurs en présence, ces fonctions ne sont pas toujours simples à assurer, car fondamentalement multiformes et mal définies. Qu’y a-t-il de commun, en effet, entre chercher à entrer en contact avec un prêtre d’une congrégation religieuse à Haïti et rechercher de l’information sur les dernière imprimantes laser d’un certain constructeur ?
Mais cette variété n’est pas, et de loin, le seul point délicat. La nature et la structure même du World-Wide Web sont en réalité des problèmes : 350 millions de documents, 20 millions de nouveaux documents par jour, 1% de documents modifiés chaque jour, des documents dans plus de 100 langues différentes, etc. Voici le quotidien des moteurs de recherche. Et c’est sans compter sur la duplication des documents : on estime en effet que près de 30% des documents sont des quasi-duplicata, c’est-à-dire des documents différents mais très proches (versions différentes d’un même texte, variantes, etc.). Ainsi, les F.A.Q. (Frequently Asked Questions), qui sont des listes de questions les plus fréquemment posées, sont dupliquées quasiment à l’infini sur Internet, avec quelques petites variantes introduites à chaque duplication (version, date, auteur, etc.) Il est donc essentiel pour un moteur de recherche d’identifier correctement les quasi-duplicata, sous peine de noyer les utilisateurs sous une multitude de versions du même document et d’augmenter sans raison la taille de sa base de données. A cet égard, quelques chiffres permettent de mieux apprécier la difficulté qu’il peut y avoir aujourd’hui à concevoir et à mettre en œuvre un moteur de recherche généraliste. Ainsi, en juillet 1998, le moteur AltaVista a effectué une moisson de 170 millions de pages (sur un total estimé à 350 à cette période), dont 125 millions ont été indexées, ce qui représente environ 800 GO (soit 800.000 MO) de texte brut, et un index de près de 250 GO installé sur plus d’une vingtaine de machines de très haut de gamme (10 processeurs, 10 GO de mémoire vive) et interrogé 37 millions de fois par jour en semaine avec un temps de réponse moyen de 0.6 secondes.
Afin d’améliorer la pertinence des documents retournés, les moteurs de recherche disposent de plusieurs angles d’attaque. L’un des premiers concerne les requêtes elles-mêmes, par exemple la correction orthographique ou la détection automatique des phrases. Ainsi, un moteur sera en mesure de fournir des réponses beaucoup plus pertinentes si la requête est la phrase "effet de serre" que si la requête consiste en les trois mots "effet", "de" et "serre", car la phrase est bien entendu beaucoup plus discriminante que les trois mots pris séparément. Ce fait est bien connu des linguistes qui savent que le sens des textes est en grande partie contenu dans les groupes nominaux. AltaVista effectue automatiquement, depuis l’été 1998, la reconnaissance des phrases dans les requêtes des utilisateurs, et une étude a montré que cette technologie a amélioré singulièrement la qualité du moteur tout en étant compatible avec le modèle mental développé par les utilisateurs. Notons cependant qu’une approche naïve reposant sur des dictionnaires linguistiques n’a rigoureusement aucune chance de pouvoir être appliquée à ce problème : les groupes nominaux dont il est question ici sont en effet beaucoup trop nombreux et variés ("MP3 player", "Monika Lewinsky", etc.) La même remarque s’applique d’ailleurs à la correction orthographique. De nouvelles méthodes linguistico-statistiques adaptées doivent donc être développées.
Cependant, le principal levier dont dispose l’architecte d’un moteur de recherche reste encore l’amélioration de l’algorithme d’évaluation de pertinence (ranking.) En effet, les algorithmes traditionnels, fondés sur la mise en correspondance des mots des requêtes et des mots contenus dans les documents trouvent rapidement leurs limites sur le World-Wide Web : documents volontairement biaisés par les spammers, polysémie très importante, nombre de documents trop important, duplication anarchique des documents, etc. Tout concourt donc à faire échouer les algorithmes de ranking traditionnels. C’est pour cela que de nouveaux algorithmes sont en train d’être développés avec des premiers résultats prometteurs. Ces algorithmes sont fondés sur une particularité qui rend le World-Wide Web unique : le fait qu’il s’agit d’un corpus hypertexte. Ces algorithmes exploitent donc le graphe sous-jacent de tout corpus HTML, c’est-à-dire le graphe dont les sommets sont les documents HTML et les arêtes sont les liens hypertextes. On définit en général deux types de documents susceptibles d’intéresser les utilisateurs les pages de liens (hubs en anglais) et les documents de référence (authorities en anglais). Les pages de liens sont, comme leur nom l’indique, des sources de liens hypertextes vers des documents intéressants (par exemple, un annuaire comme Yahoo! peut être vu comme tel), tandis que les documents de référence sont des documents qui sont centraux ou incontournables sur un sujet donné. Mais toutes les pages de liens et tous les documents de référence ne se valent pas. La caractéristique principale (qui peut paraître circulaire à première vue mais possède en réalité un sens mathém atique précis) d’une bonne page de liens est qu’elle référence de nombreux bons documents de référence, tandis que la principale caractéristique d’un bon document de référence est qu’il est référencé par de nombreuses bonnes pages de liens. Cette remarque a été à l’origine de la création de l’algorithme HITS [K98] qui peut être utilisé par un moteur de recherche pour fournir à l’utilisateur les meilleures pages de liens et les meilleurs documents de référence qui sont dans la connexité des résultats de ses recherches (les documents de référence étant d’ailleurs probablement préférables pour une utilisation grand public). A notre connaissance, aucun moteur commercial n’incorpore un tel algorithme. Une autre approche, exploitant de manière plus simple la structure de graphe du World-Wide Web (en particulier de manière indépendante de la requête) a été récemment mise en œuvre dans le moteur Google! (www.google.com) à vocation commerciale, mais qui est encore à l’état de prototype. Si ce moteur est loin de posséder tous les attributs nécessaires à un grand moteur généraliste, la qualité des résultats sur certaines requêtes laisse entrevoir ce que pourrait apporter la prise en compte des liens hypertexte dans l’évaluation de la pertinence des documents.
Au-delà de la conception des algorithmes d’estimation automatique de pertinence, un autre élément important dans la conception d’un moteur de recherche est la prise en compte efficace de la polysémie, qui est un problème particulièrement épineux sur le World-Wide Web. Ainsi, un acronyme comme "BSE" signifie, entre autres, Bovine Spongiform Encephalopathy, Breast Self Examination, Bombay Stock Exchange ou encore Bachelor of Science in Engineering, et BSE est également le nom d'un robot logiciel utilisé par l’un des moteurs de recherche sur l’Internet pour effectuer sa moisson périodique de documents. Il est donc essentiel, lorsqu’un utilisateur effectue la requête "BSE", que le moteur lui fournisse un moyen de préciser de manière simple l’objet réel de sa recherche. C’est ainsi que mon équipe à l’Ecole des Mines de Paris a développé la technologie Cow9 (anciennement LiveTopics [B97]) utilisée par le moteur AltaVista dans sa fonction Refine. Cette technologie permet un raffinement des requêtes par un feedback thématique produit par une analyse automatique (fondée sur des techniques statistiques) des résultats des recherches. Elle permet donc en particulier le traitement de la polysémie. Les thèmes non pertinents peuvent être exclus d’un simple clic de la recherche, tandis qu’un zoom est possible sur les thèmes jugés les plus pertinents, ce qui permet à l’utilisateur de préciser très facilement sa requête. Une approche similaire, permettant de classer les résultats des recherches dans des dossiers thématiques (dont la liste est établie manuellement), a plus récemment été déployée sur le moteur de recherche NorthernLight (www.northernlight.com).
Au delà des techniques standard décrites plus haut, d’autres approches sont utilisées sur certains moteurs pour aider les utilisateurs dans leurs recherches. Citons par exemple la fonction What’s Related de Netscape (www.netscape.com) proposant des liens vers des pages au contenu proche d’une page donnée, ou la fonction More Like This du moteur Excite (www.excite.com) permettant d’affiner une requête de manière à rechercher des pages au contenu proche d’un des résultats de cette requête.
Signalons enfin l’existence d’approches alternatives de celle suivie par les moteurs de recherche, comme la recherche par nom de marques de RealNames (www.realnames.com), la reformulation de requêtes en questions aux réponses connues, voie suivie par AskJeeves (www.askjeeves.com), l’approche des anneaux (rings en anglais) qui consiste à relier entre eux par des liens hypertextes les sites aux contenus voisins (ce qui ne résout toutefois pas le problème de trouver un premier site situé dans l’anneau) ou encore les meta-moteurs qui interrogent en parallèle plusieurs moteurs de recherche classiques et fusionnent ensuite de manière intelligente les résultats de ces derniers. Sachant que le taux de couverture d’un moteur (c’est-à-dire la proportion de documents du World-Wide Web qui se trouve effectivement dans la base de données du moteur) est au maximum de 30%, l’utilisation de meta-moteurs peut sembler intéressante. Malheureusement, la pratique montre que la valeur ajoutée de ces outils est bien faible, et qu’en dépit de son taux de couverture limité, un moteur classique est encore bien mieux à même d’estimer la pertinence des documents qu’il retourne qu’un meta-moteur n’est capable de le faire.
Conclure sur un tel sujet n’est pas chose aisée tant il est vrai que le monde des outils de navigation sur Internet est en perpétuelle mutation. Les challenges auxquels sont confrontés les architectes des moteurs de recherche sont nombreux et délicats. Comment tout d’abord espérer maintenir, à un coût raisonnable, un taux de couverture du World-Wide Web suffisant quand le nombre de documents disponibles augmente de 6% par mois ? Comment fournir des réponses ayant une pertinence adéquate à un utilisateur qui fournit très peu d’indications sur ce qu’il recherche vraiment ? Et comment amener, sans le décourager, l’utilisateur à en dire plus ?
Des solutions techniques sont en vue pour répondre à certains des problèmes ci-dessus, comme par exemple la prise en compte des liens hypertextes dans l’analyse de la pertinence des documents ou encore la mise aux enchères de certaines requêtes, mais ces solutions sont loin d’être parfaites, et l’on ne pourra certainement pas faire l’économie d’une réflexion approfondie sur les impacts socio-économiques et culturels de ces solutions, notamment les impacts liés au risque de consolidation des positions dominantes. D’autres approches plus collaboratives, comme par exemple The Open Directory Project (www.dmoz.org), devront sans doute être développées pour faire le pendant aux guides commerciaux, un peu à la manière dont le logiciel libre, comme le tandem GNU/Linux, est en train de s’imposer dans une industrie du logiciel dominée par quelques grands acteurs.
Références
[B97] François Bourdoncle. LiveTopics : Recherche Visuelle d’Information sur Internet. Dossiers de l'Audiovisuel, La Documentation Française, numéro 74 (juillet-aout 1997) 36–38
[BH98] Andrei Broder, Monika Henzinger. Information retrieval on the Web: tools & algorithmic issues. FOCS’98 tutorial (1998)
[K98] Jon M. Kleinberg. Authoritative Sources in a Hyperlinked Environment. Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms (January 1998) 668–677
[SHMM98] Craig Silverstein, Monika Henzinger, Hannes Marais, Michael Moricz. Analysis of a Very Large AltaVista Query Log. SRC Technical Report 1998-014, Compaq Systems Research Center, Palo-Alto, California (1998)