Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
scrutaridata:exemples [2009/06/02 17:05]
vincent
scrutaridata:exemples [2023/10/03 12:53] (Version actuelle)
vincent
Ligne 1: Ligne 1:
 ====== Exemples de fichiers au format ScrutariData ====== ====== Exemples de fichiers au format ScrutariData ======
  
-Les exemples suivants sont tirés ​de sites appartenant à la [[http://​www.coredem.info|Coredem]] :+Chaque moteur Scrutari permet ​de récupérer au format ScrutariData les données qu'il a lui-même collectéL'​avantage de cette récupération,​ c'est que ces données ont été nettoyées d'​erreurs éventuelles.
  
-===== Wiki Coredem ​français =====+Pour la [[https://​www.coredem.info|Coredem]], cette liste est accessible à l'​adresse [[https://​sct1.scrutari.net/​sct/​coredem/​export/​source-list.html|sct1.scrutari.net/​sct/​coredem/​export/​source-list.html]].
  
-Fichier XML : http://​scrutari.coredem.info/infos/php/​coredem.scrutari-data.php?lang=fr+On pourra prendre comme exemple simple [[https://sct1.scrutari.net/sct/coredem/​export/​data-lexicommon.xml|lexicommon]] qui ne propose qu'un seul corpus avec comme seul champ de texte le titre. Des sources comme [[https://sct1.scrutari.net/​sct/coredem/​export/​data-socioeco.xml|socioeco]] (site [[https://​www.socioeco.org|Socioeco.org]]) ou [[https://​sct1.scrutari.net/​sct/​coredem/​export/​data-citego.xml|citego]] (site [[https://​www.citego.org/​|Citégo]]) vont être plus complètes avec différents corpus et thésaurus (plusieurs Mio chacune).
  
-C'est une des extractions les plus simples ​qui soient puisqu'il n'y un seul corpusaucun thésaurus et les fiches ​ne comprennent qu'un titre. +Autre exemple plus complexe, l'export d'​Autour du 1er mai qui comprend de nombreux champs complémentaires et d'attributsnotamment dans les fiches ​films avec le texte complet d'une fiche [[https://sct1.scrutari.net/sct/premiermai/export/data-premiermai.xml|sct1.scrutari.net/sct/premiermai/export/data-premiermai.xml]] (plus d'une dizaine ​de Mio).
- +
-Ce fichier est généré à partir du wiki de la Coredem et donc via MediaWiki. +
- +
-====== Sites de la Coredem ====== +
- +
-Fichier XML http://​scrutari.coredem.info/infos/xml/sitecoredem.scrutari-data.xml +
- +
-C'est une autre extraction simple puisqu'​il n'y a pas de thésaurus non plusIl y a cependant un champ complémentaire et c'est un des rares cas où l'​icône de la fiche est défini au niveau de la fiche elle-même (alors que dans le cas le plus courant, l'​icône des fiches est défini au niveau de la base). +
- +
-Ce fichier est généré à partir d'un balayage dans le logiciel BaseDeFiches. +
- +
-====== Site Irénées ====== +
- +
-Fichier XML : http://​bases.basedefiches.net/irenees/pub/scrutari/coredem.scrutari-data.xml +
- +
-Ce fichier fait plus de 1,6 Mio. C'est un exemple complet de l'​extraction d'un site multilingue avec thésaurus. +
- +
-Ce fichier est généré à partir de l'​option d'​exportation vers Scrutari du logiciel BaseDeFiches+
  
scrutaridata/exemples.1243955120.txt.gz · Dernière modification: 2009/12/17 11:26 (modification externe)
CC Attribution-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0