<?xml version="1.0" encoding="UTF-8"?>

<!--Project Preservation Description Information -->
<!--Ce document rassemble les informations qui sont à consigner lors de la mise en oeuvre d'un projet d'archives au CINES -->

<ppdi xmlns="http://www.cines.fr/pac/ppdi" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.cines.fr/pac/ppdi http://www.cines.fr/pac/ppdi.xsd"> 
    
<Titre>Informations de pérennisation du projet Speech and Language Data Repository (SLDR, anciennement Centre de Ressources pour la Description de l'Oral, CRDO) d'Aix-en-Provence</Titre>   
    
<Contexte>
     <Fonds>
         <intitule>Archive ouverte SLDR</intitule>
         <contenu>SLDR est destiné à recueillir la production scientifique de laboratoires et de chercheurs indépendants travaillant sur des ressources orales/linguistiques dans les disciplines les plus diverses : linguistique expérimentale, linguistique de contact, didactique, musicologie, anthropologie, sociologie, histoire etc. Des documents numériques à valeur culturelle ou patrimoniale sont aussi acceptés. Sauf dérogations encadrées par le Code du patrimoine (art. L.213-2, loi du 15 juillet 2008), ces ressources sont librement accessibles au public. Les objets déposés comprennent des données primaires désignées comme « corpus » (tous signaux associés à la production de parole ou de chant), des données secondaires appelées « ressources » qui sont des ensembles d'informations structurées pour l'étude de la parole (lexiques/grammaires etc.) ou des enrichissements de corpus (annotations/transcriptions/traductions etc.), des outils qui sont des logiciels ou des descriptions de matériels permettant la capture et l'analyse de données, et des collections qui sont des ensembles d'objets des types précédents.</contenu>
         <langue>Toutes les langues et leurs variantes dialectales.</langue>
         <structure>SLDR traite des objets génériques : répertoires de fichiers informatiques de tous types, sans restriction sur leur complexité et leur profondeur ni sur les longueurs et encodages des noms de fichiers. Certains objets peuvent contenir plusieurs milliers de fichiers binaires agencés par des bases de données. Il n'y a pas de plan de classement prédéfini pour l'ensemble de ces objets. Les objets produits dans le cadre d'un programme de recherche ou appartenant à une communauté de producteurs peuvent être rassemblés en collections, chacune pouvant à son tour inclure d'autres collections.</structure>
         <quantite>Il n'y a pas de visibilité sur l'accroissement prévisionnel puisqu'il s'agit de dépôts volontaires. En septembre 2010, SLDR disposait de 711 objets pour un poids total de 300 Go.</quantite>
         <sortFinal>Conservation définitive.</sortFinal>
         <original>Par défaut, les données sont numérisées par leurs producteurs. Certains fichiers proviennent de supports magnétiques analogiques ou autres documents prêtés au SLDR et rendus à leurs producteurs après numérisation.</original>
         <communauteCible>Communauté scientifique internationale de toutes disciplines, et le public intéressé par les contenus audiovisuels à valeur patrimoniale ou culturelle.</communauteCible>
     </Fonds>
    
    <ServiceVersant>
        <nomSV>SLDR : service versant du Speech and Language Data Repository, Université d'Aix-Marseille et CNRS UMR 7309 (Laboratoire Parole et Langage)</nomSV>
        <datesSV>2006-06</datesSV>
        <historiqueSV>SLDR est un service permettant à des laboratoires de recherche ou des chercheurs indépendants de partager gratuitement leurs ressources orales tout en assurant leur archivage pérenne. Les centres de ressources numériques (CRN) sont une initiative conjointe de la Direction de l'information scientifique (DIS) et du département scientifique Homme et Société du Centre national de la recherche scientifique (CNRS). Le Centre de ressources pour la description de l'oral (CRDO) était le CRN centré sur les ressources orales. (Voir la lettre de mission ci-jointe.) Le CRDO a été créé à partir de deux propositions portées respectivement par les laboratoires Lacito (Laboratoire de langues et civilisations à tradition orale, UMR 7107 CNRS et Université Sorbonne Nouvelle) et LPL (Laboratoire parole et langage, UMR 7309 CNRS et Université d'Aix-Marseille). En juin 2006 il a été convenu de répartir les tâches entre deux groupes travaillant sur des aspects complémentaires du projet - respectivement CRDO-Paris et CRDO-Aix. Par la suite, ces groupes ont travaillé ensemble sur le projet pilote de mutualisation et d'archivage des données orales coordonné par le Très Grand Équipement Adonis (unité propre de service UPS 2916 du CNRS). (Voir le document de synthèse ci-joint.) En juillet 2011, CRDO-Aix a été rebaptisé Speech and Language Data Repository (SLDR)</historiqueSV>
        <historiqueSV>lettreDeMissionCRDO.pdf</historiqueSV>
        <historiqueSV>DocumentSynthese-v1.3.pdf</historiqueSV>
        <relationSvProd>Des laboratoires et des producteurs indépendants déposent volontairement leurs ressources orales sur SLDR. Leur liste (53 en septembre 2010) est régulièrement mise à jour sur le site internet de SLDR.</relationSvProd>
    </ServiceVersant> 
    
    <CircuitProduction>
        <productionCollecte>La production des ressources a un cheminement très varié et non communiqué au service versant, sauf pour ce qui concerne l'historique de versionnage que les producteurs peuvent renseigner. Cette production dépend aussi du champ disciplinaire dont relève la ressource : linguistique expérimentale (de « laboratoire ») ou linguistique d'usage (de « terrain »). Chaque opération de dépôt sollicite la participation de l'équipe de SLDR en vue d'optimiser l'agencement des données, les métadonnées et le matériel documentaire associés aux objets déposés.</productionCollecte>
        <numerisation>Les documents audiovisuels anciens sont préservés avec leurs paramètres de numérisation d'origine. Les paramètres de numérisation ne sont pas déterminés puisque la numérisation est généralement effectuée par les producteurs avant dépôt au SLDR. Les documents peuvent être transcodés à des formats compatibles avec l'archivage.</numerisation>
    </CircuitProduction>
    <Archivage>
        <cadre>Archivage patrimonial</cadre>
        <dateArchivage>2010-03-08</dateArchivage>
        <contexteLegal>Délégation d'archivage du Service interministériel des Archives de France (SIAF) au CNRS et au Cines.</contexteLegal>
        <classeService>Conservation sur le long terme</classeService>
        <infoPreserv>Les contenus audio/vidéo des enregistrements et les contenus textuels ou visuels des annotations qui leur sont associées, ainsi que de toute documentation susceptible de faciliter l'analyse ou la préservation des données, dans le but de permettre une réutilisation de ces contenus, leur vérification et leur enrichissement par des équipes de recherche en sciences du langage ou autres disciplines.</infoPreserv>
        <acces>Libre accès pour tout fichier placé dans le répertoire DIFFUSION ou explicitement déclaré en accès ouvert au moment du dépôt des métadonnées. À la demande du producteur, cet accès peut-être soumis à l'acceptation d'une licence non-commerciale Creative Commons.</acces>
        <acces>Pour tout fichier transmis via le répertoire DEPOT, l'accès est soumis à authentification sur le site internet de SLDR, sous réserve d'autorisation selon les règles définies par le producteur pour chaque groupe d'utilisateurs (voir document ci-joint). Cette procédure d'accès implique l'acceptation de la licence SLDR (voir document ci-joint) plus, le cas échéant, d'autres conditions (non-commerciales) imposées par le producteur.</acces>
        <acces>groupesUtilisateurs.pdf</acces>
        <acces>licence.pdf</acces>
        <reproduction>Au titre du droit d'auteur, la reproduction partielle des documents visuels librement accessibles est autorisée sous réserve de citer le ou les auteurs.</reproduction>
         <reproduction>Les documents obtenus après acceptation de la licence SLDR ne peuvent pas être redistribués sans autorisation explicite du producteur. Toute publication de travaux utilisant des objets téléchargés sous licence SLDR doit faire état de cette utilisation, et ses auteurs sont invités à en saisir sur le site internet de SLDR une notice bibliographique en lien avec l'objet.</reproduction>
    </Archivage>

</Contexte>    
    
<Caracteristiques>
    
    <Documents>
        <structureDocuments>
Un répertoire de base nommé sldrXXXXXX_vY où XXXXXX (chiffres de 0 à 9) est l'index de l'objet sur le service versant et Y son numéro de version. (Jusqu'au 2 octobre 2011 le préfixe 'crdo' était utilisé à la place de 'sldr'.)
Ce répertoire contient :
  - le fichier sip.xml 
  - un sous-répertoire nommé DEPOT qui contient :
    + les fichiers de tous types dont le nom (hors extension) a été remplacé par un index numérique ;
    + un fichier index.xhtml affichant la hiérarchie et les noms d'origine des fichiers, avec des liens actifs vers leurs versions renommées ;
    + un sous-répertoire nommé DESC qui contient :
      ++ le fichier XML des métadonnées métier nommé OLAC.xml ;
      ++ un fichier XML nommé public.xml donnant la liste des fichiers qui peuvent être distribués en accès libre ;
      ++ un fichier optionnel nommé confidentiel.xml contenant des informations permettant d'identifier le responsable du dépôt ou ses ayant-droit, et des instructions sur l'évolution des droits d'accès aux fichiers déposés ;
      ++ un fichier nommé groupes.xml précisant le statut courant des droits d'accès à l'objet pour les divers goupes d'utilisateurs ;
      ++ un fichier nommé mapping.txt sous la forme de tableau avec les colonnes suivantes :
	      +++ indice du fichier
	      +++ chemin menant au fichier dans l'objet source
	      +++ datastream menant au fichier sur le site de diffusion
	      +++ mode d'accès : 'public' pour accès ouvert, 'private' pour accès après authentification et vérification des droits
	      +++ taille du fichier source (en octets)
	      +++ date et heure de modification au format ISO 8601 (exemple : 2011-03-21 15:53:02)
	      +++ type MIME du fichier (exemple : application/pdf)
	      +++ indice du segment auquel appartient ce fichier dans un objet fractionné (1 par défaut)
	      +++ le code de la dérogation au principe de libre accès, le cas échéant (exemple : AR048)
	      +++ la date de départ de cette dérogation, le cas échéant, au format ISO 8601 (exemple : 2011-03-21)
	      +++ la durée de cette dérogation, le cas échéant, en années
	      +++ l'existence éventuelle d'une autorisation (yes/no)
	      +++ la date de départ de cette autorisation, le cas échéant, au format ISO 8601 (exemple : 2011-03-21)
	      +++ la date de fin de cette autorisation, le cas échéant, au format ISO 8601 (exemple : 2011-03-21)
	  ++ des fichiers nommés accessRightsN.xml (avec N nombre entier) qui contiennent les paramètres d'accès aux répertoires de l'objet :
	      +++ path = chemin d'accès au répertoire concerné dans l'objet source
	      +++ status = public/private
	      +++ derogation = le code de la dérogation au principe de libre accès, le cas échéant (exemple : AR048)
	      +++ derogation_startdate = la date de départ de cette dérogation, le cas échéant, au format ISO 8601 (exemple : 2011-03-21)
	      +++ autorisation = l'existence éventuelle d'une autorisation (yes/no)
	      +++ autorisation_startdate = la date de départ de cette autorisation, le cas échéant, au format ISO 8601 (exemple : 2011-03-21)
	      +++ autorisation_enddate = la date de fin de cette autorisation, le cas échéant, au format ISO 8601 (exemple : 2011-03-21)
	      +++ autorisation_identifier = un identifiant (URI) permettant d'accéder à l'autorisation, le cas échéant
	      +++ comment_fr = un commentaire éventuel en français
	      +++ comment_en = un commentaire éventuel en anglais
	      +++ comment_es = un commentaire éventuel en espagnol
	      +++ comment_zh = un commentaire éventuel en chinois
      ++ un fichier optionnel nommé version.xml qui contient l'historique des versions en texte libre
      ++ des fichiers optionnels contenant des informations descriptives de l'objet archivé, les licences particulières associées à l'objet et les images numérisées des formulaires de consentement signés par les participants.
      </structureDocuments>
          <structureDocuments>Lorsqu'il s'agit d'une simple mise à jour des données relatives à un dépôt, le répertoire de base est nommé sldr_metaXXXXXX_vY pour préserver l'unicité des noms de répertoires de dépôt. Le répertoire de base contient le fichier sip.xml et un répertoire DEPOT qui ne contient que le sous-répertoire DESC avec son contenu habituel. (Jusqu'au 2 octobre 2011 le préfixe 'crdo' était utilisé à la place de 'sldr'.)</structureDocuments>
        <mdMetier>
            <mdDesc>Un fichier de métadonnées métier nommé OLAC.xml est systématiquement joint à chaque document archivé. Basé sur une feuille de définition d'Open Language Archives Community (OLAC), il apporte des renseignements complémentaires sur le document archivé. Il est systématiquement déclaré en accès libre quelles que soient les restrictions d'accès à l'objet.</mdDesc>
            <mdFichier>DEPOT/DESC</mdFichier>
        </mdMetier>
    </Documents>
    
    <SipDescription>     
        <DocDCDescription>
            <title>Titre du dépôt, le cas échéant dans chaque langue de navigation du site plus une langue optionnelle qui peut être celle du corpus de référence. Le titre est préfixé de la langue dans laquelle il est exprimé, codée sur 2 caractères selon la norme ISO 639-1.</title>
            <creator>Noms et prénoms des créateurs de l'objet sous la forme "prénom NOM".</creator> 
            <subject>Mots-clés relatifs à l'objet, préfixés de la langue dans laquelle ils sont exprimés, codée sur 2 caractères selon la norme ISO 639-1.</subject>
             <subject>Langues concernées par l'objet dans le cas de données primaires, codées sur 3 caractères selon la norme ISO 639-3.</subject>
            <subject>Disciplines concernées par l'objet selon le Linguistic Subject Vocabulary d'OLAC</subject>
            <description>Présentation de l'objet, le cas échéant en plusieurs langues, préfixée de la langue dans laquelle elle est exprimée, codée sur 2 caractères selon la norme ISO 639-1.</description>
            <publisher>Laboratoire(s) producteur(s) de l'objet avec sigle(s), ville(s) et pays, ou mention « Dépôt personnel »</publisher>
            <contributor>Contributeurs à la création de l'objet : locuteurs, traducteurs, transcripteurs etc. sous la forme "prénom NOM (rôle)".</contributor>
            <date>Date de l'envoi à la plateforme d'archivage au format ISO 8601 (exemple : 2008-10-17)</date>
            <type>Type de l'objet selon la nomenclature SLDR :
            - corpus : tous les signaux associés à la parole ;
            - ressource : enrichissement de corpus, lexique, base de référence, système de représentation, grammaire etc.
            - outil : logiciel ou/et description de matériel utilisé pour le traitement des données linguistiques ;
            - collection : ensemble de données, de ressources ou/et outils. Une collection peut en contenir d'autres.</type>
            <format>Le sous-type de l'objet, dans le cas d'une ressource, selon la nomenclature SLDR :
            - article : document susceptible d'impression sur papier, ou numérisé à partir d'une version papier ;
            - base de référence : document structuré contenant des informations répétitives ;
            - code source : document décrivant les algorithmes et déclarations d'un logiciel ;
            - enrichissements : document décrivant certains aspects signaux associés à la parole ;
            - grammaire : étude de la morphologie et de la syntaxe d'une langue ;
            - lexique : ensemble des unités significatives d'une langue, excluant généralement les unités grammaticales ;
            - liste : suite continue, hiérarchisée ou non, de noms (de personnes ou d'objets) ou de signes ;
            - ouvrage : œuvre à caractère littéraire ou scientifique destinée à une publication sur papier, ou numérisée à partir d'une version papier ;
            - système de représentation : tout document structuré n'entrant pas dans les catégories précédentes ;
            - divers : tout document non structuré n'entrant pas dans les catégories précédentes ;
            ou « NR » si le type est « corpus », « outil » ou « collection ».</format>
            <source>Le cas échéant, mention du support initial de l'objet. Sinon, "NR" pour non renseigné.</source>
            <language>Langue dans laquelle est réalisé l'objet, et langues auxquelles il fait référence, codées sur 3 caractères selon la norme ISO 639-3.</language>
            <relation>"NR" pour non renseigné</relation>
            <coverage>Localisation temporelle des enregistrements dans le code DCMI period selon la norme ISO 8601. Exemple : name=Perth International Arts Festival, 2000; start=2000-01-26; end=2000-02-20</coverage>
            <coverage>Localisation temporelle des enregistrements dans le code W3C-DTF selon la norme ISO 8601. Exemple : 1994-11-05T08:15:30-05:00 pour le 5 novembre 1994 à 8 heures 15 minutes 30 secondes, US Eastern Standard Time.</coverage>
            <coverage>Localisation spatiale des enregistrements, code de pays sur 2 caractères selon la norme ISO 3166-1. Exemple : FR pour la France</coverage>
            <coverage>Localisation spatiale des enregistrements dans le code DCMI point. Exemple : name=Perth, W.A.; east=115.85717; north=-31.95301</coverage>
            <coverage>Localisation spatiale des enregistrements dans le code DCMI box. Exemple : name=Western Australia; northlimit=-13.5; southlimit=-35.5; westlimit=112.5; eastlimit=129</coverage>
            <coverage>Localisation spatiale des enregistrements selon le Getty Thesaurus of Geographic Names (TGN). Exemple : 1076026 pour Leh, Ladakh, Inde.</coverage>
            <rights>Mention de la licence SLDR, de la licence particulière à l'objet, et nom/prénom des ayant-droits sous la forme "prénom NOM"</rights>
            <rights>Lien vers la version de la licence SLDR au moment de l'archivage de l'objet</rights>
        </DocDCDescription>
        <DocMetaDescription>
            <dureeConservation>P10000Y</dureeConservation>
            <identifiantDocProducteur >Identifiant unique dans la base de données de SLDR : sldrXXXXXX (X désignant des chiffres de 0 à 9). (Jusqu'au 2 octobre 2011 le préfixe 'crdo' était utilisé à la place de 'sldr'.)</identifiantDocProducteur>
            <docRelation>
                <typeRelation>« maj » pour une mise à jour de métadonnées, « version » pour une nouvelle version, ou « filiation » pour une relation de filiation avec un autre objet</typeRelation>
                <sourceRelation>« PAC » ou « Producteur » selon que la source est spécifiée sur la plateforme d'archivage du CINES ou sur le service versant.</sourceRelation>
                <identifiantSourceRelation>Identifiant de la source de la relation sur la plateforme d'archivage du CINES ou dans la base de données de SLDR.</identifiantSourceRelation>
            </docRelation>
            <noteDocument>Le cas échéant, historique du versionnage.</noteDocument>
            <serviceVersant>CRDO-Aix</serviceVersant> 
            <structureDocument>index.xhtml</structureDocument>
            <version>Numéro de version le cas échéant</version>
            <versionPrecedente>Champ non utilisé</versionPrecedente>
        </DocMetaDescription>
        <FichMetaDescription>
            <compression>Champ non utilisé</compression>
            <encodage>Encodage associé à certains formats, afin de permettre la vérification de conformité du fichier.</encodage>
            <formatFichier>Un des formats autorisés</formatFichier>
            <nomFichier>Nom du fichier</nomFichier>
            <empreinteOri>Empreinte MD5 du fichier pour vérification</empreinteOri>
            <noteFichier>Champ non utilisé</noteFichier>
            <structureFichier>Champ non utilisé</structureFichier>
        </FichMetaDescription>
    </SipDescription>
    
</Caracteristiques>    
    
</ppdi>
