Les services de type "annuaire" ou "pages jaunes", répertorient de manière non exhaustive les serveurs World-Wide Web et associent à chaque serveur une catégorie préétablie. La classification des serveurs est manuelle, et les catégories sont en nombre très limité. Ces services sont donc adaptés à la recherche d'informations très "génériques". Le plus connu des annuaires de l'Internet est Yahoo (http://www.yahoo.com)
Les "moteurs de recherche", en revanche, récupèrent à l'aide de robots logiciels tous les documents accessibles sur les serveurs du réseaux, et indexent ces documents de façon entièrement automatique. On interroge les moteurs de recherche en formulant des requêtes dans des langages spécialisés, dont certains sont assez proches de la langue naturelle. Le grand avantage des moteurs de recherche est qu'ils donnent accès à toutes les informations disponibles sur le réseau (ou presque). Les moteurs de recherche sont donc tout à fait adaptés à la recherche d'informations spécialisées ou de personnes. Le plus connu et le plus puissant des moteurs de recherche est AltaVista, developpé par la société Digital Equipment Corporation, qui est consulté plus de 30 millions de fois par jour (http://www.altavista.digital.com).
Malgrès un engouement croissant du public pour les moteurs de recherche, il a vite fallu se rendre à l'évidence que plus le nombre de documents répertoriés dans la base de données d'un moteur de recherche était élevé, plus il devenait difficile de localiser la "bonne" information : la moindre des requêtes sur AltaVista retourne en effet fréquemment plus de quelques milliers voire dizaines de milliers de réponses, et il est très difficile de localiser l'information pertinente dans cette masse énorme de documents sans utiliser des requêtes booléennes sophistiquées contenant les bons mots-clefs, ce qui n'est pas à la portée de l'utilisateur moyen du World-Wide Web.
C'est en faisant ce constat que j'ai eu l'idée de développer une nouvelle technologie permettant à des non spécialistes d'utiliser une interface visuelle très simple pour retrouver des informations pertinentes dans de très grandes bases de données en texte intégral, que celles-ci soient le World-Wide Web lui-même ou des bases de données en Intranet. Une license d'utilisation de cette technologie a été acquise l'année dernière par la société Digital Equipment Corporation afin d'êre intégrée sous le nom de LiveTopics dans son moteur de recherche AltaVista.

Carte thématique proposée en réponse à la requête "greenhouse effect" (effet de serre).
La technologie LiveTopics a été développée en essayant de fusionner et de dépasser plusieurs techniques classiques de recherche documentaire, chacune avec ses avantages propres. L'une des plus anciennes techniques de recherche documentaire est l'utilisation d'un algorithme d'estimation automatique de pertinence pour présenter à l'utilisateur quelques dizaines de documents jugés les plus pertinents parmi tous ceux correspondant à sa requête. Les meilleurs moteurs de recherche sur l'Internet, dont AltaVista, utilisent ces techniques pour essayer de limiter l'impact de la taille de leur base de données. Malheureusement, les techniques d'estimation automatique de pertinence, pour importantes qu'elles soient, sont intrinsèquement limitées pour deux raisons principales. Tout d'abord, les algorithmes utilisés n'étant en général pas connus des utilisateurs, ces techniques ont un côté "magique" qui, aussi séduisant soit-il, rend leur utilisation assez délicate dès que la taille de la base de donnée augmente et que le nombre de termes utilisés dans la requête est faible. En effet, il est assez peu probable qu'un mécanisme quel qu'il soit permette de choisir la "bonne" dizaine de documents parmi les quelques 60000 parlant "d'effet de serre" sur le World-Wide Web, car cette thématique est beaucoup trop vaste pour être réduite à un nombre si faible de documents. Sans indication supplémentaire fournie explicitement par l'utilisateur, il est donc impossible de savoir si celui-ci s'intéresse plutôt à la partie scientifique (absorption des rayonnements infrarouges par les gaz à effet de serre, modèles de circulation océanique, etc.), aux impacts socio-économiques (politique énergétique, carburants de substitution, nucléaire, etc.), aux impacts sur les écosystèmes (fonte des glaces polaires, montée du niveau des océans, etc.), etc.
Une deuxième technique, connue pour fournir de bons résultats, est la technique de contrôle de pertinence, qui permet à l'utilisateur d'émettre un jugement sur la pertinence des documents proposés en réponse à ses requêtes. Ce jugement est alors automatiquement pris en compte par le moteur de recherche qui reformule la requête de manière plus précise et permet ainsi d'affiner la recherche. Le grand avantage de cette technique est que le caractère "magique" de l'estimation automatique de pertinence est en grande partie gommé, et que l'utilisateur reste seul juge de la pertinence des résultats de ses requêtes. En revanche, cette technique est assez laborieuse, car elle impose à l'utilisateur la lecture de nombreux articles (et, sur Internet, le télé-chargement des articles en question via le réseau, ce qui peut prendre beaucoup de temps) et, surtout, il n'est pas certain que les articles sur lequel l'utilisateur est amené à se prononcer soient statistiquement représentatifs de l'ensemble des thèmes ou sous-thèmes de la requête, ce qui fait qu'il est tout à fait possible qu'un thème majeur soit ignoré.
Lorsque le domaine de la base de données est très étroit, il est possible de proposer à l'utilisateur une recherche thématique faisant appel à une taxinomie pertinente du domaine. Cette taxinomie est en général figée et compilée de manière manuelle ou semi-manuelle par des experts du domaine, ce qui est, en général, un gage de pertinence. L'utilisation de telles taxinomies est évidemment très intéressante car elle permet une navigation très rapide et augmente singulièrement la qualité des recherches. En revanche, une telle approche est peu ou pas adaptée à des bases de données à spectre large, comme le World-Wide Web, pour lesquels l'idée même de taxinomie statique n'a pas grand sens, mais également aux domaines qui évoluent rapidement, rendant la taxinomie obsolète avant même qu'elle ne soit achevée.
La technologie LiveTopics est une synthèse originale des trois techniques précédentes permettant à l'utilisateur de formuler aisément des requêtes ciblées grâce à un contrôle de pertinence thématique et visuel. Plus précisément, le principe de fonctionnement de LiveTopics consiste à fournir à l'utilisateur, après chacune des ses requêtes, une cartographie thématique, obtenue de manière entièrement automatique, des documents correspondant à sa requête, en garantissant la représentativité statistique de la carte. Cette carte représente l'ensemble des thèmes identifiés par le logiciel pour la requête, ainsi que des liens entre thèmes représentant une certaine forme de proximité (ou d'opposition) sémantique. Par exemple, le thème "écologie" pourra se retrouver proche du thème "nucléaire" dans une analyse de la requête "effet de serre" non pas parce que le nucléaire est une source d'énergie écologique en général, mais plutôt parce que, dans le contexte des controverses en cours sur l'effet de serre, les partisans de l'énergie nucléaire ont argué du fait que les centrales nucléaires ne rejetaient pas de gaz carbonique et étaient donc plus écologiques que les hydrocarbures fossiles.
Les thèmes eux-mêmes consistent en un ensemble de mots qui, collectivement, définissent généralement un thème ou un discours. Par exemple, le thème "nucléaire", dans le contexte de l'effet de serre, pourra contenir des mots comme "réacteur", mais aussi des mots comme "Tchernobyl" ou encore "radioactif", indiquant par là même que les écologistes répondent preuves à l'appui au discours du lobby nucléaire sur le sujet! On voit donc que l'aspect dynamique de l'analyse thématique est essentiel pour fournir à l'utilisateur une information pertinente et ciblée, car le thème "nucléaire" serait très différent dans le contexte de la mécanique quantique par exemple.
Du point du vue interface utilisateur, une appelette Java, télé-chargée dynamiquement par le navigateur, permet une représentation graphique de la carte à deux niveaux : initialement, seules les têtes de chapitre des divers thèmes sont présentés, ainsi que leurs relations, et le contenu de chacun des thèmes peut être découvert dans un second temps. Cette présentation en deux étapes de l'information permet une première méta-analyse de la carte, de ses grandes régions, tendances, et méta-concepts, suivie d'une analyse plus fine de chacun des thèmes. De plus, l'expérience tend à monter que la visualisation des relations entre têtes de chapitre est une représentation du savoir aisément assimilable par l'esprit humain, associatif par essence, ce qui facilite grandement l'appropriation de l'outil.
Une fois la carte analysée, l'utilisateur peut, d'un simple clic de la souris, indiquer sa préférence pour tel ou tel thème ou, au contraire, filtrer le bruit en excluant certains termes de sa requête et, enfin, soumettre une requête affinée au moteur de recherche. Dans le cas d'AltaVista, le mécanisme d'analyse automatique de pertinence utilisé pour les requêtes simples fait alors usage des mots additionnels spécifiés par l'utilisateur pour améliorer la pertinence des documents présentés à ce dernier.
Une utilisation particulièrement intéressante de LiveTopics est le filtrage du bruit. Par exemple, une requête comme "cryptographie" correspond aussi bien à des documents mathématiques sur les diverses techniques de cryptographie et de factorisation des grands nombres en nombres premiers qu'à des documents sur l'utilisation de la cryptographie, par exemple pour le paiement sécurisé sur l'Internet. Il est donc important de pouvoir immédiatement exclure la thématique qui n'est pas l'objet de la recherche. De même, LiveTopics peut être utilisé pour trouver le sens d'un acronyme comme "BSE", qui signifie, entre autres, Bovine Spongiform Encephalopathy, Breast Self Examination, Bombay Stock Exchange, ou encore Bachelor of Science in Engineering. En combinaison avec le mécanisme d'exclusion, il est ainsi possible, en excluant les différentes significations d'un acronyme et en itérant le processus de cartographie thématique, de faire progressivement émerger les différents sens, des plus généraux aux plus spécifiques (par exemple, BSE est également le nom d'un robot logiciel utilisé par un des moteurs de recherche sur l'Internet pour effectuer sa moisson périodique de documents).
De nombreuses améliorations de LiveTopics sont à l'étude, en particulier une meilleure gestion des caractères accentués et des langues en général, ainsi qu'une version de la technologie mieux adaptée à des bases de données de type Intranet.