Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Dernière révision Les deux révisions suivantes | ||
scrutaridata:exemples [2009/06/02 17:06] vincent |
scrutaridata:exemples [2023/10/03 12:52] vincent |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
====== Exemples de fichiers au format ScrutariData ====== | ====== Exemples de fichiers au format ScrutariData ====== | ||
- | Les exemples suivants sont tirés de sites appartenant à la [[http://www.coredem.info|Coredem]] : | + | Chaque moteur Scrutari permet de récupérer au format ScrutariData les données qu'il a lui-même collecté. L'avantage de cette récupération, c'est que ces données ont été nettoyées d'erreurs éventuelles. |
- | ===== Wiki Coredem français ===== | + | Pour la [[https://www.coredem.info|Coredem]], cette liste est accessible à l'adresse [[https://sct1.scrutari.net/sct/coredem/export/source-list.html|sct1.scrutari.net/sct/coredem/export/source-list.html]]. |
- | Fichier XML : http://scrutari.coredem.info/infos/php/coredem.scrutari-data.php?lang=fr | + | On pourra prendre comme exemple simple [[https://sct1.scrutari.net/sct/coredem/export/data-lexicommon.xml|lexicommon]] qui ne propose qu'un seul corpus avec comme seul champ de texte le titre. Des sources comme [[https://sct1.scrutari.net/sct/coredem/export/data-socioeco.xml|socioeco]] (site [[https://www.socioeco.org|Socioeco.org]]) ou [[https://sct1.scrutari.net/sct/coredem/export/data-citego.xml|citego]] (site [[https://www.citego.org/|Citégo]]) font être beaucoup plus complètes (plusieurs Mio chacune). |
- | C'est une des extractions les plus simples qui soient puisqu'il n'y un seul corpus, aucun thésaurus et les fiches ne comprennent qu'un titre. | + | Autre exemple plus complet, l'export d'Autour du 1er mai qui comprend de nombreux champs complémentaires et d'attributs, notamment dans les fiches films avec le texte complet d'une fiche : [[https://sct1.scrutari.net/sct/premiermai/export/data-premiermai.xml|sct1.scrutari.net/sct/premiermai/export/data-premiermai.xml]] (plus d'une dizaine de Mio). |
- | + | ||
- | Ce fichier est généré à partir du wiki de la Coredem et donc via MediaWiki. | + | |
- | + | ||
- | ===== Sites de la Coredem ===== | + | |
- | + | ||
- | Fichier XML : http://scrutari.coredem.info/infos/xml/sitecoredem.scrutari-data.xml | + | |
- | + | ||
- | C'est une autre extraction simple puisqu'il n'y a pas de thésaurus non plus. Il y a cependant un champ complémentaire et c'est un des rares cas où l'icône de la fiche est défini au niveau de la fiche elle-même (alors que dans le cas le plus courant, l'icône des fiches est défini au niveau de la base). | + | |
- | + | ||
- | Ce fichier est généré à partir d'un balayage dans le logiciel BaseDeFiches. | + | |
- | + | ||
- | ===== Site Irénées ===== | + | |
- | + | ||
- | Fichier XML : http://bases.basedefiches.net/irenees/pub/scrutari/coredem.scrutari-data.xml | + | |
- | + | ||
- | Ce fichier fait plus de 1,6 Mio. C'est un exemple complet de l'extraction d'un site multilingue avec thésaurus. | + | |
- | + | ||
- | Ce fichier est généré à partir de l'option d'exportation vers Scrutari du logiciel BaseDeFiches | + | |