Scrutari

Scrutari est un moteur de recherche destiné à effectuer des recherches sur un nombre précis de sites (les sites « abonnés »). Sa particularité est de baser sa recherche sur les méta-données transmises par les sites abonnés et non sur les documents des site eux-mêmes (pages HTML, fichier PDF, etc.), contrairement aux moteurs de recherche classiques. L'objectif est de sacrifier l'exhaustivité au bénéfice de la pertinence. En particulier, Scrutari permet de maitriser l'algorithme de recherche et donc de maitriser l'ordre des résultats (par exemple, pour mettre en avant les documents qui sont estimés les plus importants).

Le système Scrutari est divisé en trois parties bien distinctes :

On voit que ces trois parties du système Scrutari communiquent entre elles via des formats texte (XML ou format SimpleScrutari) suivant le protocole HTTP. Aussi n'y a-t-il aucune contrainte quant au langage de programmation utilisé du moment que ce langage est capable d'écrire du texte, d'analyser du XML et de communiquer via HTTP. Le choix du langage se fera donc à la convenance du développeur. On pourra ainsi tout aussi bien développer son propre client que se passer du serveur Scrutari pour lire directement les fichiers XML au format ScrutariData fourni par les sites.

Le présent manuel s'attache tout particulièrement à décrire les différents formats d'échanges disponibles afin de permettre à tout développeur de faire les scripts qui lui conviennent et aux utilisateurs avertis de comprendre les possibilités que leur offre le système Scrutari.

Le code source de Scrutari et ceux de projets liés sont rassemblés dans le groupe Scrutari sur FramaGit. Le site de la Coredem propose une présentation de Scrutari à destination des producteurs de données.

L'arborescence du site suit cette décomposition en trois parties :