Introduction au format ScrutariData

Comparaison avec les flux RSS

Le principe derrière le système Scrutari est très proche de celui des flux RSS. En effet, mettre en place un flux RSS consiste simplement à proposer sur son site un lien vers un fichier qui va suivre un format XML donné (le format Atom ou un des formats RSS définis). Comme ce fichier respecte un format donné, il va pouvoir être lu par des logiciels particuliers : les « agrégateurs de flux RSS » qui sont capables d'interpréter les données contenues par ce fichier et de les mettre en forme pour les rendre lisibles par l'internaute, le terme « agrégateurs » vient du fait que ces logiciels sont conçus pour récupérer de nombreux flux RSS différents (par exemple, les blogs ou les sites de journaux auxquels l'internaute s'abonne). Il existe de nombreux logiciels susceptibles de lire ses flux RSS (par exemple, Thunderbird inclut un lecteur de flux RSS) et des sites proposent en ligne l'agrégation de ces flux).

Le système Scrutari fonctionne de manière analogue : pour être pris en compte par le serveur Scrutari, un site doit indiquer le lien vers un fichier au format ScrutariData. C'est ce fichier que va récupérer régulièrement le serveur Scrutari pour se mettre à jour.

La différence entre les flux RSS et le format ScrutariData, c'est que les flux RSS s'attache à décrire les dernières modifications d'un site alors que le format ScrutariData est conçu pour décrire toutes les ressources d'un site. Il en découle une différence importante de taille de fichier. Un fichier de flux RSS dépasse rarement une centaine de kio alors qu'un fichier au format ScrutariData dépasse facilement un Mio.

Actuellement, seul le serveur Scrutari sait lire le format ScrutariData ; on peut imaginer que d'autres logiciels soient susceptibles de le lire à l'avenir. D'ailleurs, dans le cas de mise en œuvre de Scrutari à destination du public (le moteur de recherche de la Coredem, par exemple), on part du principe que les fichiers au format ScrutariData fournis par les différents sites sont d'accès public et peuvent être lus par d'autres que le seul serveur Scrutari.

Termes employés

Un fichier au format ScrutariData correspond à une base spécifique. Une base est qualifiée par un nom et des intitulés dans diverses langues et comprend des corpus et des thésaurus.

Un corpus est un ensemble de fiches d'un même format (par exemple, les fiches d'analyse, les fiches d'expérience, etc.). Ce qu'on appelle « fiche » ici peut s'appeler article, page ou document dans d'autres systèmes. À chaque fiche correspond une URL, c'est vers cette URL qu'aboutira en final l'internaute après sa recherche.

Un thésaurus est un ensemble de mots-clés d'un même type. Les mots-clés servent à l'indexation des fiches.