CRDO —> SldrWiki —> SLDR_FR —> Projet CINES/IN2P3/TGE-Adonis
Bilan du projet pilote, janvier 2011
Partie concernant CRDO-Aix. (Voir
autres partenaires sur le wiki de TGE-Adonis, ou
copie)
Points positifs et actions réalisées
Archivage pérenne et partage d'objets 'génériques'
- Arborescence de fichiers/répertoires déterminée par les producteurs sans limitation de profondeur ni de complexité : tous les répertoires sont « mis à plat » au moment du dépôt en archive, leur structure initiale étant préservée sur une page XHTML.
- Les types d'objets (corpus/ressource/outil/collection…) n'existent qu'au niveau des métadonnées descriptives ; tous les objets sont traités de manière identique. Une typologie différente pourra donc être utilisée sur CRDO-Aix en remplacement ou juxtaposée à celle existante.
- Les noms de fichiers respectent les encodages acceptés par le service versant (Unix, Unicode UTF8). Ces noms sont tokenisés au moment de la réalisation du paquet soumis à l'archivage et restitués lors du téléchargement.
- Il est possible de préserver le nom d'origine pour garantir la pérennité de l'URLs d'accès à un fichier en libre accès.
- Pas de limite du nombre de fichiers ni de la taille d'un objet : tout objet dépassant les limites imposées par la PAC et/ou l'environnement Fedora Commons (couramment 50 Go, 30000 fichiers) est fragmenté en plusieurs segments d'une manière invisible aux utilisateurs.
- En janvier 2011, CRDO-Aix a déposé 66 Go/40952 fichiers en mode production et 186 Go/7108 fichiers en mode test, avec des fichiers de taille jusqu'à 2.5 Go. Voir détail :
http://sldr.org/archivage_hist.php
Diversification des modes d'accès
- Accès libre : un objet en entier (sous licence Creative Commons) peut être téléchargé par n'importe quel internaute et il ne sera conservé aucune trace de cette transaction.
- Accès contrôlé : les utilisateurs doivent être inscrits sur le site CRDO-Aix et appartenir à un groupe qui bénéficie de l'accès à l'objet. Une trace de cette transaction est conservée sur le site.
- Accès restreint : l'objet n'est accessible qu'aux personnes utilisant un identifiant et un mot de passe spécifiques.
- Fichiers en accès libre : pour tous les modes d'accès définis ci-dessus, un fichier peut être déclaré en accès libre. Cet accès est fourni par un lien sur la table de matières détaillée de l'objet. Voir par exemple le répertoire stream sur
http://crdo.fr/crdo000525/toc - Les modes d'accès aux objets et aux fichiers peuvent être modifiés par une simple mise à jour des leurs métadonnées.
- Champs confidentiels: certaines métadonnées (e.g. l'identité des informateurs) peuvent ne pas être diffusées publiquement avant une date fixée par le producteur de l'objet correspondant et/ou les dispositions légales concernant les données personnelles.
- Les administrateurs du site et les producteurs ont accès à toutes les versions de l'objet archivé. L'accès aux versions antérieures est bloqué pour tout autre utilisateur, dans l'anticipation d'une évolution restrictive des droits d'accès sur un fichier.
Architecture client-serveur (multi-tier) du service versant
- CRDO-Aix traite des requêtes http permettant d'exercer des actions sur les données disponibles localement ou sur le site de diffusion. Voir
http://crdo.fr/wiki/Redirections - Ce traitement permet un embedding de données (accès en streaming audio/vidéo, insertion d'images etc.) sur tout site producteur construit en « surcouche » de CRDO-Aix. Exemple vidéo :
http://crdo.fr/wiki/Valbonnais-journee-patois-aout2010 - Les liens utilisés pour ce traitement peuvent être rendus indépendants du versionnage et de la localisation du site de diffusion. Voir
http://crdo.fr/wiki/SmartUrls-fr - Le service versant CRDO-Aix peut faire remonter vers les laboratoires producteurs certaines requêtes des utilisateurs permettant l'affichage de données dans le contexte du projet dont est issu l'objet concerné. Exemple :
http://crdo.fr/crdo000027/source
Métadonnées descriptives
- Les métadonnées descriptives sont archivées selon un schéma préconisé par OLAC (Open Language Archives Community). Ces métadonnées sont disponibles en libre accès dans l'espace Fedora Commons du site de diffusion. Voir par exemple
http://crdo.fr/crdo000014/get/olac - Tous les objets de CRDO-Aix sont répertoriés dans un static repository mis à jour quotidiennement et moissonné par OLAC :
http://crdo.fr/olac/CRDOarchive.xml - Les producteurs sont incités à décrire leurs objets dans les quatre langues de navigation du site CRDO-Aix, plus une langue optionnelle qui peut être celle du corpus. La description multilingue concerne les champs subject, description et tableOfContents qui fournit le détail du contenu de l'objet. Voir par exemple
http://crdo.fr/crdo000759/get/olac - Les champs bibliographicCitation incluent automatiquement les références bibliographiques attribuées à l'objet sur CRDO-Aix, ainsi que des références extérieures. Des champs isReferencedBy contiennent des liens vers les projets à la source de l'objet. Voir par exemple
http://crdo.fr/crdo000027/get/olac - Lorsqu'une relation de filiation (par exemple isPartOf) est saisie dans les métadonnées de l'objet fils, la relation inverse est inférée dans l'objet père et incluse à ses métadonnées descriptives. Voir par exemple le champ hasPart dans la collection :
http://crdo.fr/crdo000740/get/olac - Les objets héritent des contenus de linguistic-field décrits dans les objets auxquels ils sont liés par une relation de filiation. Ce mécanisme d'héritage (récursif) garantit notamment l'homogénéité de description des objets appartenant à des collections.
- Le cas échéant, l'historique de versionnage est inclus dans un champ tableOfContents.
Récupération des objets
- Tout objet déposé en archive (en test ou en production) peut être reconstitué à partir des datastreams créés pour sa diffusion sous Fedora Commons. Ce dispositif reconstruit la hiérarchie du répertoire et restitue les noms de fichiers et leurs dates de modification, après avoir vérifié que leur taille est identique à celle enregistrée dans un registre (mapping.txt) dont une copie est disponible dans Fedora Commons.
- La récupération peut s'effectuer en plusieurs passes dans le cas d'objets très volumineux.
- La récupération permet de libérer l'espace du service versant de tous les objets relativement stabilisés et archivés en mode production. L'objet est récupéré s'il s'avère nécessaire d'en déposer une nouvelle version.
Informations de pérénisation
- Une première version du PPDI de CRDO-Aix a été rédigé avec l'aide des archivistes du CINES. Voir
http://crdo.fr/ppdi
Accompagnement des projets
- Dès la mise en place d'un programme de recherche il est possible de décrire les objets en cours de création et d'en déposer des versions successives dans l'espace de test pour assurer leur partage entre les chercheurs concernés. Ces objets une fois stabilisés sont basculés en mode production.
- L'accès contrôlé (licence CRDO) permet de constituer autour de chaque objet une communauté d’utilisateurs qui communiquent via un environnement Web 2.0. Voir
http://crdo.fr/com - Le suivi des ressources est assuré par (1) la mise en ligne sur CRDO-Aix de références d'articles scientifiques mentionnant explicitement leur utilisation (voir
http://crdo.fr/pub) ; (2) la possibilité pour les producteurs et utilisateurs d'un objet d'identifier ses téléchargements et leurs destinataires ; (3) la possibilité d'être informé par courrier de toute modification majeure d'un objet (versionnage) en l'inscrivant dans une liste de suivi.
Règles de bonne pratique
- Une documentation multilingue de toutes les possibilités techniques de CRDO-Aix est en cours de rédaction :
http://crdo.fr/wiki/Guidelines_fr
Valorisation/collaborations/évaluation
- CRDO-Aix est la plateforme centrale de l'axe Corpus, Outils, Ressources du projet de Laboratoire d'Excellence Pro-Lang que les Universités d'Aix-Marseille ont déposé en novembre 2010.
- Dans ce cadre, l'architecture multi-tier de CRDO-Aix sera mise à profit pour l'archivage et la diffusion des données linguistiques de la plateforme de traitement des données culturelles et historiques (
ODSAS) du Centre de Recherche et de Documentation sur l'Océanie (CREDO). Voir projet :
http://crdo.fr/doc/admin/labex/Labex-CREDO.pdf - Travaux dans le groupe WP2 de CLARIN, notamment en vue de l'implémentation de l'infrastructure
CMDI. - CRDO-Aix est présenté au Comité de visite de l'AERES dans le cadre de l'évaluation du LPL, le 15 décembre 2010. Voir diaporama :
http://crdo.fr/doc/aeres/diaporama.ppsx
Diaporama en anglais
Note d'ambiance
- Excellent climat de coopération entre tous les acteurs du projet pilote.
- Les difficultés initiales ont été en grande partie surmontées grâce aux compétences, au professionnalisme et aux qualités d'organisation de l'équipe coordinatrice (Claude Huc et Benoît Habert).
- Convivialité et efficacité du travail en équipe lors des journées de travail au CC-IN2P3, ainsi que pendant les télé-réunions.
Points négatifs et actions non réalisées (en cours)
- Mise en conformité des réglages de droits d'accès avec les récentes modifications du Code du patrimoine : voir propositions
- Installation du Policy agent d'OpenSSO.
Validation de nouveaux formats de données :
- tous les formats OpenDocument : il manque odt, odp et odg
- déterminer et valider un format pour l'archivage de bases de données relationnelles
- Récupération des messages contenant sip.xml et le certificat d'archivage : développer une solution permettant le traitement automatique des messages reçus.
- Streaming vidéo : mise en place d'une solution compatible avec iRods/Fedora Commons.
- Mise en place de l’ISOcat registry et révision des champs de métadonnées à cet effet.
- Inclusion des pages wiki associées à l'objet dans le répertoire DIFFUSION. Nécessite la migration de PhpWiki vers PmWiki pour un stockage texte/UTF8 des pages.
- Révision de la liste des disciplines (hors linguistique).
- Documentation détaillée des dispositifs utilisables pour afficher la vitrine (preview) des objets.
- Interfaces et documentation à mettre à jour en langues espagnole et chinoise.
- Finalisation du
PPDI : il nous manque une copie des annexes de la convention CNRS/CINES/Archives de France - L'équipe de CRDO-Aix aurait apprécié de recevoir l'annonce de la 2e université de TGE-Adonis en décembre 2010, si ce n'est une invitation à participer à une présentation crédible des résultats du projet pilote…
Included from reference-documents
Documents de référence / Reference documents
- Projet pilote TGE-Adonis/CINES/CC-IN2P3/CRDO d'archivage pérenne et de mutualisation des données orales
Pilot project for the storage, long-term preservation and sharing of oral resources TGE-Adonis/CINES/CC-IN2P3/CRDO) - Archive du projet pilote :
ark:/87895/1.4-187408 - Consortium Corpus oraux et multimodaux (IRCOM) de la TGIR-CORPUS
Consortium on oral and multimodal corpora (IRCOM) of TGIR-CORPUS
Lettre de mission du CRDO (15 février 2006)- Rapports d'activités :
CRDO Aix/Paris (juin 2006) et
CRDO-Paris (décembre 2006)
Hosting of IT services and data for Human and Social Sciences in France (Olof BÄRRING, 31/1/2008)
Mutualisation de la pérennisation et de l'accès aux données - Projet pilote sur les données orales version 0.7 (TGE-Adonis, 30/6/2008)
Mutualisation de la pérennisation et de l'accès aux données en SHS : bilan du projet pilote sur les données orales (Claude HUC, 12 mars 2009)
Rapport d'avancement du projet pilote sur les données orales (Claude HUC, 2 avril 2009)
TGE Adonis – Projet d’archivage des données produites en France par les SHS / Projet pilote sur les donneées orales, novembre 2008 – avril 2009
Rapport d’expertise sur la version préliminaire du résumé opérationnel (Yves MARCOUX, 28 mai 2009)
Évaluation du projet pilote 22 juin 2009 (TGE-Adonis)
Présentation à la Direction des Archives de France du projet pilote d'archivage pérenne des données orales, 23 octobre 2009- Lettre d'intention Lacito/LPL (18 mai 2010) :
texte et
annexe Convention régissant un service de préservation à long terme de documents numériques - entre le CINES et le CNRS au nom et pour le compte du TGE-Adonis, 25 mai 2010
Annexe 0 : Liste des services versants habilités par le service commanditaire à verser des documents électroniques au service d'archives
- Mise au point avant le passage en production de l'archivage pérenne, 18 juin 2010
- Bilan du projet pilote (janvier 2011)
Vers un CRDO « élargi » : rapport (mensonger) de Mathilde Schmitt, mai 2011
Lettre à la direction de TGE-Adonis (Direction du LPL, 15 juin 2011) => remerciements + communication sur CRDO-Aix
Lettre à la direction de TGE-Adonis (Direction du LPL, 29 juin 2011) => cadre juridique (rappel le 2 mars 2012, documents reçus le 19 mars)- Les services versants CRDO-Aix et CRDO-Paris : caractéristiques techniques
CRDO-Aix renamed SLDR (CLARIN News)
SLDR presentation in CLARIN-D tutorial (7 September 2011)
Présentation de CLARIN à la réunion du Consortium Corpus oraux et multimodaux (IRCOM) de la TGIR-CORPUS, 5 octobre 2011
Included from services-versants
Les services versants du CRDO
CRDO submission sites
CRDO-Aix |
CRDO-Paris | |
Page d'accueil | ||
Identité, affiliation institutionnelle, responsables Identity, corporate affiliation, persons in charge | http://crdo.vjf.cnrs.fr:8080/crdo_servlet/oai-pmh?verb=Identify | |
Informations de pérénisation (PPDI) | En cours de rédaction | |
Institution hôte |
Laboratoire parole et langage (LPL, UMR 6057 CNRS/Université de Provence) | Réseau d'information sur les sciences de la cognition (RISC, UMS 3332 CNRS) |
Présentation |
http://sldr.org/wiki/CRDO_fr Une page : Diaporama : | Sur la page d'accueil |
Moissonnage OAI | OAI :
http://www.openarchives.org/Register/BrowseSites?viewRecord=http://crdo.up.univ-aix.fr/oai-pmh.php |
OAI :
http://www.openarchives.org/Register/BrowseSites?viewRecord=http://crdo.vjf.cnrs.fr:8080/crdo_servlet/oai-pmh |
Intégrité des métadonnées OLAC | ||
Langues de navigation |
Anglais, espagnol, français, chinois | Français |
Types de données |
Générique : données audiovisuelles et/ou textuelles, annotations etc. | Spécifique : fichiers sonores et annotations |
Formatage des objets |
Arborescence de fichiers sans structure imposée, noms encodés UTF-8, voir http://sldr.org/wiki/Packaging-fr | 1 fichier WAV + 1 fichier XML pour annotations |
Langues des métadonnées descriptives | Jusqu'à 5 langues (4 langues de navigation plus 1 en option) | 1 langue |
Métadonnées confidentielles en option | Oui | Non |
Domaines linguistiques |
D'après OLAC enrichi, avec héritage entre objets en lien hiérarchique | - |
Données en libre accès |
Oui | Oui |
Données en accès réservé | Oui, après identification et approbation de licence(s) non-commerciale(s) | Oui (liste nominative d'utilisateurs) |
Gestion automatique des droits d'accès | À l'étude | |
Motivation du refus d'accès (art. L213-5 du Code du patrimoine) | Oui, catégories selon http://sldr.org/wiki/table_derogations_fr mentionnées dans les métadonnées. | Non |
Affichage des autorisations | Oui. Les autorisations sont archivées. | Non |
Types de licences non-commerciales | Creative Commons, licences CRDO producteur et utilisateur, licences spécifiques en option | Creative Commons |
Liens vers accès sous licence commerciale | European
Language Resources Association (ELRA) =>
exemple | - |
Archivage pérenne |
Oui (pour toutes données) | Uniquement pour les données en libre accès |
Archivage intermédiaire |
Oui (pour toutes données) | Non |
Identifiants | OAI, ARK | OAI, ARK |
Accès aux versions antérieures et données source | Oui (producteurs et utilisateurs privilégiés) | Pas de versionnage apparent |
Trace des utilisations | Les téléchargements sont archivés ; les utilisateurs d'un objet ont accès à la liste des noms, métiers, affiliations institutionnelles et domaines de recherche des autres utilisateurs, ainsi qu'un formulaire de contact (sans adresse apparente). | Non |
Contact avec les producteurs de données | Formulaire de contact par courriel (sans adresse apparente) |
Non |
Historique de versionnage |
Oui (dans les métadonnées) | Non |
URL pérennes | Oui, voir http://sldr.org/wiki/SmartUrls-fr | Non |
Services en ligne |
Réduit au streaming MP3 et Flash vidéo. Utiliser le mode client-serveur pour les autres services. | Streaming WAV avec affichage synchronisé de transcription/traduction |
Architecture client-serveur (multi-tier) | Non | |
Limites physiques des objets | Pas de limite théorique : segmentation automatique des objets dépassant les volumétries 40 Go/10000 fichiers | 1 seul fichier WAV ou XML |
Données complétant la description d'un objet | Documentation : fichiers HTML, XHTML, XML, TXT, et tous formats validés
en archivage pérenne | - |
Récupération des objets archivés | Oui pour les données et les métadonnées descriptives. Procédure automatique avant versionnage ou en cas d'accident (administrateurs) | ? |
Personnalisation de l'interface | Pour chaque objet, une vitrine peut afficher des objets graphiques et des extraits sonores/vidéo | Non |
Références bibliographiques | Liste de publications attachée à chaque objet (ou collection) | Possibilité de relation bibliographicCitation |
Liens vers les laboratoires producteurs | Mention des laboratoires, lien actif, optionnellement renvoi vers le système d'information, voir http://sldr.org/wiki/Producteurs-fr | Mention du laboratoire |
Formats de métadonnées | olac (validé), oai_dc (validé) | olac (validé), oai_dc (non validé) |
Exemple de requête oai_dc | http://crdo.up.univ-aix.fr/oai-pmh.php?verb=GetRecord&identifier=oai:sldr.org:crdo000525&metadataPrefix=oai_dc => validé | http://crdo.vjf.cnrs.fr:8080/crdo_servlet/oai-pmh?verb=GetRecord&identifier=oai:crdo.vjf.cnrs.fr:crdo-KAB_LDF1_SOUND&metadataPrefix=oai_dc => non validé |
Exemple de requête olac | http://sldr.org/oai-pmh.php?verb=GetRecord&identifier=oai:sldr.org:crdo000525&metadataPrefix=olac => validé |
http://crdo.vjf.cnrs.fr:8080/crdo_servlet/oai-pmh?verb=GetRecord&identifier=oai:crdo.vjf.cnrs.fr:crdo-KAB_LDF1_SOUND&metadataPrefix=olac => non validé |
Sets | current_data, archive, archive:medium_term, archive:long_term, tech | Lacito, LanguesDeFrance, Dallith, Eslo |
Guide de bonnes pratiques |
http://sldr.org/wiki/Guidelines_fr | Liens sur la page d'accueil |
Journal de développement | - | |
Rapport d'activités |
http://www.tge-adonis.fr/wiki/index.php?title=Bilan_du_projet | |
Historique d'archivage |
- | |
Syndication |
RSS, Atom | RSS |
