Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
scrutaridata:index [2009/06/02 17:26]
vincent
scrutaridata:index [2012/10/14 01:55] (Version actuelle)
vincent
Ligne 14: Ligne 14:
 ===== Termes employés ===== ===== Termes employés =====
  
-Un fichier au format ScrutariData correspond à une **base** spécifique. Une base possède ​un nom et des intitulés dans diverses langues. Une base est comprend des **corpus** et des **thésaurus**.+Un fichier au format ScrutariData correspond à une **base** spécifique. Une base est qualifiée par un nom et des intitulés dans diverses langues ​et comprend des **corpus** et des **thésaurus**.
  
-Un **corpus** est un ensemble de **fiches** d'un même format (par exemple, les fiches d'​analyse,​ les fiches d'​expérience,​ etc.). Ce qu'on appelle « fiche » ici peut s'​appeler article, page ou document dans d'​autres systèmes. À chaque fiche correspond ​un URL avec tout le contenu disponible puisquerappelons-le,​ le format ScrutariData ne s'intéresse ​qu'aux méta-données.+Un **corpus** est un ensemble de **fiches** d'un même format (par exemple, les fiches d'​analyse,​ les fiches d'​expérience,​ etc.). Ce qu'on appelle « fiche » ici peut s'​appeler article, page ou document dans d'​autres systèmes. À chaque fiche correspond ​une URL, c'est vers cette URL qu'aboutira en final l'​internaute après sa recherche.
  
 Un **thésaurus** est un ensemble de **mots-clés** d'un même type. Les mots-clés servent à **l'​indexation** des fiches. Un **thésaurus** est un ensemble de **mots-clés** d'un même type. Les mots-clés servent à **l'​indexation** des fiches.
  
-Six termes résument le format ScrutariData : base, corpus, fiche, thésaurus, mot-clé et indexation. 
  
-* **base** : chaque fichier au format ScrutariData correspond à une base, ch 
  
- 
-===== Le fichier d'​entête ===== 
- 
-Comme un fichier au format ScrutariData contient toutes les ressources d'un site, sa taille peut rapidement dépasser le Mio voire plus. Par conséquent,​ le serveur Scrutari ne va pas le lire toutes les heures mais une seule fois par jour. En outre, pour éviter de récupérer un fichier d'un site qui n'a peut-être pas été modifié récemment, le serveur Scrutari lit d'​abord un fichier d'​entête qui doit contenir deux informations : 
- 
-  * la date de dernière mise à jour des données du site 
-  * l'URL du fichier complet au format ScrutariData du site 
- 
-Cela donne le format suivant : 
-<code xml> 
-<?xml version='​1.0'​ encoding='​UTF-8'?>​ 
-<​header>​ 
-   <​date>​2005-11-03</​date>​ 
-   <​path>​export/​donnees-interne.xml</​path>​ 
-</​header>​ 
-</​code>​ 
- 
-L'​élément racine est l'​élément !!<​header>​!! qui contient deux éléments : !!<​date>​!! avec la date de dernière mise à jour au format ISO et !!<​path>​!! ​ le chemin du fichier des données qui peut être absolu ou relatif par rapport à l'URL du fichier d'​entête. 
- 
-Ce fichier d'​entête doit être fourni par le site qui s'​abonne au serveur Scrutari (dans le cas du moteur de la Coredem, il est possible de se dispenser de fournir ce fichier d'​entête,​ le moteur charge alors automatiquement la nouvelle version une fois par semaine). 
  
  
  
scrutaridata/index.1243956403.txt.gz · Dernière modification: 2009/12/17 11:26 (modification externe)
CC Attribution-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0