Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
scrutaridata:index [2009/07/04 23:49]
vincent
scrutaridata:index [2012/10/14 01:55] (Version actuelle)
vincent
Ligne 16: Ligne 16:
 Un fichier au format ScrutariData correspond à une **base** spécifique. Une base est qualifiée par un nom et des intitulés dans diverses langues et comprend des **corpus** et des **thésaurus**. Un fichier au format ScrutariData correspond à une **base** spécifique. Une base est qualifiée par un nom et des intitulés dans diverses langues et comprend des **corpus** et des **thésaurus**.
  
-Un **corpus** est un ensemble de **fiches** d'un même format (par exemple, les fiches d'​analyse,​ les fiches d'​expérience,​ etc.). Ce qu'on appelle « fiche » ici peut s'​appeler article, page ou document dans d'​autres systèmes. À chaque fiche correspond ​un URL avec tout le contenu disponible puisquerappelons-le,​ le format ScrutariData ne s'intéresse ​qu'aux méta-données.+Un **corpus** est un ensemble de **fiches** d'un même format (par exemple, les fiches d'​analyse,​ les fiches d'​expérience,​ etc.). Ce qu'on appelle « fiche » ici peut s'​appeler article, page ou document dans d'​autres systèmes. À chaque fiche correspond ​une URL, c'est vers cette URL qu'aboutira en final l'​internaute après sa recherche.
  
 Un **thésaurus** est un ensemble de **mots-clés** d'un même type. Les mots-clés servent à **l'​indexation** des fiches. Un **thésaurus** est un ensemble de **mots-clés** d'un même type. Les mots-clés servent à **l'​indexation** des fiches.
  
  
-===== Le fichier d'​information ===== 
  
-Comme un fichier au format ScrutariData contient toutes les ressources d'un site, sa taille peut rapidement dépasser le Mio voire plus. Par conséquent,​ le serveur Scrutari ne va pas le lire toutes les heures mais une seule fois par jour. En outre, pour éviter de récupérer un fichier d'un site qui n'a peut-être pas été modifié récemment, le serveur Scrutari lit d'​abord un fichier d'​information qui doit contenir les deux informations suivantes : 
- 
-  * la date de dernière mise à jour des données du site 
-  * l'URL du fichier complet au format ScrutariData du site 
- 
-Cela donne le format suivant : 
-<code xml> 
-<?xml version='​1.0'​ encoding='​UTF-8'?>​ 
-<​scrutari-info>​ 
-   <​date>​2005-11-03</​date>​ 
-   <​path>​export/​donnees-interne.xml</​path>​ 
-</​scrutari-info>​ 
-</​code>​ 
- 
-L'​élément racine est l'​élément !!<​scrutari-info>​!! qui contient deux éléments : !!<​date>​!! avec la date de dernière mise à jour au format ISO et !!<​path>​!! ​ le chemin du fichier des données qui peut être absolu ou relatif par rapport à l'URL du fichier d'​entête. 
- 
-Ce fichier d'​information est nécessaire pour qu'un site devienne une source du serveur Scrutari. 
  
  
  
scrutaridata/index.1246744168.txt.gz · Dernière modification: 2009/12/17 11:26 (modification externe)
CC Attribution-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0