Différences

Ci-dessous, les différences entre deux révisions de la page.

--- scrutaridata:index [2009/06/01 18:32]
vincent
+++ scrutaridata:index [2012/10/14 01:55] (Version actuelle)
vincent
@@ Ligne 1: / Ligne 1: @@
 ====== Introduction au format ScrutariData ======
-===== Proximité avec les flux RSS =====
+===== Comparaison avec les flux RSS =====
 Le principe derrière le système Scrutari est très proche de celui des flux RSS. En effet, mettre en place un flux RSS consiste simplement à proposer sur son site un lien vers un fichier qui va suivre un format XML donné (le format Atom ou un des formats RSS définis). Comme ce fichier respecte un format donné, il va pouvoir être lu par des logiciels particuliers : les « agrégateurs de flux RSS » qui sont capables d'interpréter les données contenues par ce fichier et de les mettre en forme pour les rendre lisibles par l'internaute, le terme « agrégateurs » vient du fait que ces logiciels sont conçus pour récupérer de nombreux flux RSS différents (par exemple, les blogs ou les sites de journaux auxquels l'internaute s'abonne). Il existe de nombreux logiciels susceptibles de lire ses flux RSS (par exemple, Thunderbird inclut un lecteur de flux RSS) et des sites proposent en ligne l'agrégation de ces flux).
@@ Ligne 11: / Ligne 11: @@
 Actuellement, seul le serveur Scrutari sait lire le format ScrutariData ; on peut imaginer que d'autres logiciels soient susceptibles de le lire à l'avenir. D'ailleurs, dans le cas de mise en œuvre de Scrutari à destination du public (le moteur de recherche de la Coredem, par exemple), on part du principe que les fichiers au format ScrutariData fournis par les différents sites sont d'accès public et peuvent être lus par d'autres que le seul serveur Scrutari.
-===== Le fichier d'entête =====
-Comme un fichier au format ScrutariData contient toutes les ressources d'un site et qu'il peut donc être de taille conséquente, le serveur Scrutari ne va pas le lire toutes les heures mais une seule fois par jour. En outre, pour éviter de récupérer un fichier d'un site qui n'a peut-être pas été modifié récemment, le serveur Scrutari lit d'abord un fichier d'entête qui doit contenir deux informations :
+===== Termes employés =====
-  * la date de dernière mise à jour des données du site
+Un fichier au format ScrutariData correspond à une **base** spécifique. Une base est qualifiée par un nom et des intitulés dans diverses langues et comprend des **corpus** et des **thésaurus**.
-  * l'URL du fichier complet au format ScrutariData du site
+Un **corpus** est un ensemble de **fiches** d'un même format (par exemple, les fiches d'analyse, les fiches d'expérience, etc.). Ce qu'on appelle « fiche » ici peut s'appeler article, page ou document dans d'autres systèmes. À chaque fiche correspond une URL, c'est vers cette URL qu'aboutira en final l'internaute après sa recherche.
+Un **thésaurus** est un ensemble de **mots-clés** d'un même type. Les mots-clés servent à **l'indexation** des fiches.
-Cela donne le format suivant :
-<code xml>
-<?xml version='1.0' encoding='UTF-8'?>
-<header>
-   <date>2005-11-03</date>
-   <path>export/donnees-interne.xml</path>
-</header>
-</code>
-L'élément racine est l'élément //<header>// qui contient deux éléments : //<date>// avec la date de dernière mise à jour au format ISO et //<path>//  le chemin du fichier des données qui peut être absolu ou relatif par rapport à l'URL du fichier d'entête.
-Ce fichier d'entête doit être fourni par le site qui s'abonne au serveur Scrutari (dans le cas du moteur de la Coredem, il est possible de se dispenser de fournir ce fichier d'entête, le moteur charge alors automatiquement la nouvelle version une fois par semaine).