Ceci est une ancienne révision du document !


Introduction au format ScrutariData

Proximité avec les flux RSS

Le principe derrière le système Scrutari est très proche de celui des flux RSS. En effet, mettre en place un flux RSS consiste simplement à proposer sur son site un lien vers un fichier qui va suivre un format XML donné (le format Atom ou un des formats RSS définis). Comme ce fichier respecte un format donné, il va pouvoir être lu par des logiciels particuliers : les « agrégateurs de flux RSS » qui sont capables d'interpréter les données contenues par ce fichier et de les mettre en forme pour les rendre lisibles par l'internaute, le terme « agrégateurs » vient du fait que ces logiciels sont conçus pour récupérer de nombreux flux RSS différents (par exemple, les blogs ou les sites de journaux auxquels l'internaute s'abonne). Il existe de nombreux logiciels susceptibles de lire ses flux RSS (par exemple, Thunderbird inclut un lecteur de flux RSS) et des sites proposent en ligne l'agrégation de ces flux).

Le système Scrutari fonctionne de manière analogue : pour être pris en compte par le serveur Scrutari, un site doit indiquer le lien vers un fichier au format ScrutariData. C'est ce fichier que va récupérer régulièrement le serveur Scrutari pour se mettre à jour.

La différence entre les flux RSS et le format ScrutariData, c'est que les flux RSS s'attache à décrire les dernières modifications d'un site alors que le format ScrutariData est conçu pour décrire toutes les ressources d'un site. Il en découle une différence importante de taille de fichier. Un fichier de flux RSS dépasse rarement une centaine de kio alors qu'un fichier au format ScrutariData dépasse facilement un Mio.

Actuellement, seul le serveur Scrutari sait lire le format ScrutariData ; on peut imaginer que d'autres logiciels soient susceptibles de le lire à l'avenir. D'ailleurs, dans le cas de mise en œuvre de Scrutari à destination du public (le moteur de recherche de la Coredem, par exemple), on part du principe que les fichiers au format ScrutariData fournis par les différents sites sont d'accès public et peuvent être lus par d'autres que le seul serveur Scrutari.

Le fichier d'entête

Comme un fichier au format ScrutariData contient toutes les ressources d'un site et qu'il peut donc être de taille conséquente, le serveur Scrutari ne va pas le lire toutes les heures mais une seule fois par jour. En outre, pour éviter de récupérer un fichier d'un site qui n'a peut-être pas été modifié récemment, le serveur Scrutari lit d'abord un fichier d'entête qui doit contenir deux informations :

  • la date de dernière mise à jour des données du site
  • l'URL du fichier complet au format ScrutariData du site

Cela donne le format suivant :

<?xml version='1.0' encoding='UTF-8'?>
<header>
   <date>2005-11-03</date>
   <path>export/donnees-interne.xml</path>
</header>

L'élément racine est l'élément <header> qui contient deux éléments : <date> avec la date de dernière mise à jour au format ISO et <path> le chemin du fichier des données qui peut être absolu ou relatif.

Ce fichier d'entête doit être fourni par le site qui s'abonne au serveur Scrutari.

scrutaridata/index.1243873146.txt.gz · Dernière modification: 2009/12/17 11:26 (modification externe)
CC Attribution-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0