CRDO —> SldrWiki —> SLDR_FR —> Developpement_fr
Journal (archive 2)
1er juin 2009
- Publication sur le
wiki du code de création des SIP.* Nouvelle catégorie de ressource : code source.
2 juin 2009
- Redémarrage problématique du serveur => réparation des autorisations des disques de démarrage. Ce problème est peut-être survenu au moment des automatisations de scripts modifiant les droits.
- Harmonisation avec CRDO-Paris des métadonnées DC contenues dans le SIP. Ces métadonnées reprennent maintenant le maximum d'informations utilisables. (
Voir wiki Adonis)
3 juin 2009
- Correction des champs DC du SIP pour gérer les liens de parenté.
- Résolu problème d'encodage UTF8 dans les métadonnées OLAC : utiliser my_strip_tags() pour convertir depuis la base de données.
- Contributions à la page
Plan_de_la_documentation du wiki.
4 juin 2009
Vérifié avec succès :
- Le dépôt de 2 corrections successives des métadonnées de crdo000034 ;
- Le traitement et l'archivage de chaque sip.xml correspondant ;
- Le traitement et l'archivage de chaque aip.xml correspondant ;
- Les répertoires générés pour ces archivages on des noms contenant 'meta' s'il s'agit d'une simple mise à jour de métadonnées.
- La fonction xml_element($element,$texte) retourne maintenant un tableau contenant toutes les occurrences de $element dans $texte.
5 juin 2009
- Pour la
validation du static repository OLAC il faut maintenant utiliser l'URL 'solide'
http://crdo.up.univ-aix.fr/olac/CRDOarchive.xml et non
http://crdo.fr/olac/CRDOarchive.xml. Steven Bird, gestionnaire d'OLAC, m'a précisé que leur plateforme n'acceptait pas pour l'instant les redirections web, mais qu'une prochaine version le ferait d'ici deux mois. - Reçu confirmation de l'enregistrement du repository.
Implémenté la liste de suivi :
- Tout objet peut être incorporé à la liste de suivi d'un utilisateur ;
- Chaque fois que la date de mise à jour est modifié par un admin, l'objet est marqué comme "nouvelle version" ;
- Dans init(), une procédure balaie tous les objets modifiés et avertit par mail les utilisateurs abonnés.
- Pour chaque objet, l'administrateur ou le producteur de l'objet peuvent consulter la liste des personnes inscrites au suivi.
6 juin 2006
- L'admin est prévenu dans le menu de gauche que des objets doivent être exportés suite aux mises à jour de leurs métadonnées.
9 juin 2009
- Automatisation des dépôts de nouvelles versions.
- Voir
http://www.tge-adonis.fr/wiki/index.php/GestionDepotsAix pour la documentation.
10 juin 2009
- Création de la relation non standard project qui est remplacée par IsReferencedBy dans les champs Dublin Core.
- Vérifié avec succès le dépôt d'une nouvelle version de crdo000034.
- FACILE valide les AIFF de crdo000011.
- Dépôt de crdo000011.
11 juin 2009
- Dépôt avec succès d'une nouvelle version de crdo000011.
12 juin 2009
- Affichage de l'historique d'archivage :
http://crdo.fr/archivage_hist.php. - Corrections sur flash streamer audio et vidéo.
13 juin 2009
- Extension d'affichage sur la page d'accueil (liste chronologique des dépôts).
- Correction de l'élément <dc:creator>.
15 juin 2009
- Le versement au service d'archivage inclut maintenant le contenu du preview si celui-ci n'est pas vide. Les fichiers correspondants sont signalés par un nom avec le préfixe 'preview_'. Au moment de la génération du SIP, ces fichiers sont copiés dans le répertoire DEPOT s'ils sont archivables ou DIFFUSION dans le cas contraire.
- La décision d'archiver un objet (pour la première fois) ou d'archiver une nouvelle version se fait par clic de boutons visibles à l'administrateur sur la fiche détaillée de l'objet.
17 juin 2009
- Les URL sont maintenant dans un seul champ depo_url au lieu d'être réparties dans les tables corpus, ressource, outil.
- Un champ depo_url_rem permet de donner des précisions sur l'accès à l'URL.
18 juin 2009
- Une liste d'extensions acceptables comme fichiers textes peut maintenant être attachée à chaque objet. Elle est utilisée lors de la génération du SIP pour éviter de placer dans DIFFUSION des fichiers texte qui ont vocation à être archivés. Cette procédure a été vérifiée sur
crdo000757 qui comporte des fichiers d'annotations avec des extensions propres au standard SAM. - Résolu un problème de droits lors de l'utilisation de la commande mkdir($dir,$mode) : il faut utiliser exec("mkdir -m mode ...") pour spécifier les droits (protection du système).
19 juin 2009
- L'historique d'archivage
http://crdo.fr/archivage_hist.php peut maintenant être trié.
23 juin 2009
- Mis en place une sauvegarde automatique de sip_archive et aip_archive, qui est lancée à chaque transfert vers le CINES. (En effet elle nécessite qu'une fenêtre de Terminal soit ouverte.)
- Révision des champs DC pour les relations de filiation selon la PAC. Ces filiations concernent principalement l'appartenance à une collection et la relation entre un enrichissement et un corpus. Suivi d'une prooposition de Pierre-Yves Jallud, que le champ <relation> de DocDC soit qualifié à partir d'une sémantique des relations dans Fedora :
http://www.fedora.info/definitions/1/0/fedora-relsext-ontology.rdfs - Dépôt de
crdo000719 mais impossibilité de valider le sip.xml car double paternité.
25 juin 2009
- Correction de la suppression programmée des répertoires de téléchargement dans init().
- Nouvelle version de l'objet
crdo000719 dans laquelle la collection PRAAT est démontée de manière à fournir tous ses composants à l'archivage : fichiers AIFF et fichiers UTF8 avec des extensions diverses. - Voir si ce démontage peut être programmé par un script PRAAT.
26 juin 2009
- La prévisualisation (preview) est maintenant possible pour tout type d'objet.
- Correction du formulaire de contact par mail : encodage, multilinguisme, adresse de retour.
28 juin 2009
On peut mettre des pictogrammes dans la prévisualisation (preview) :
- Pictogramme icone (petite taille) sous le nom picto.jpg, picto.jpeg ou picto.gif
- Pictogramme de grande taille (apparaîtra en cliquent le précédent) sous le nom picto-large.jpg, picto-large.jpeg ou picto-large.gif.
- Voir par exemple
crdo000753. - On peut mettre un lien sur ce pictogramme en le plaçant dans picto-url.txt.
- Voir par exemple
crdo000758.
30 juin 2009
- On peut insérer un fichier HTML code.html ou code.htm dans la prévisualisation.
- On peut insérer un fichier code.php dans la prévisualisation.
- Voir par exemple
crdo000759.
4 juillet 2009
- Correction de l'effacement des dossiers de téléchargement dans 'temp' : boucle supplémentaire pour tenir compte de la modification du répertoire.
- Le champ depo_responsable contient maintenant un nom par ligne, et chaque nom est exporté séparément dans le DC <creator>.
- Le champ <relation> du DC du SIP contient maintenant NR.
6 juillet 2009
- Supprimé le message mess_num = 1 qui contenait le texte de la licence producteur. Ce texte est maintenant généré uniquement par la fonction licence_producteur($langue).
9 juillet 2009
- Champ de métadonnées confidentielles et date de péremption associée.
- Dans les URL, remplacé "langue=" par "lang=".
10 juillet 2009
- Implémenté générateurs de flux RSS et Atom.
12 juillet 2009
- Multiples corrections pour revenir à la page courante après s'être identifié.
- Protection totale(?) contre une tentative d'édition/création multiple grâce aux variables $_SESSION['edit'] et $_SESSION['edit_id']. La première enregistre le statut de l'éditeur et la seconde le numéro de l'objet en cours d'édition (0 pour une création). Sur la page depot_resume.php, une erreur est affichée sur $_SESSION['edit_id'] n'est pas le numéro de l'objet courant. (Cela pourrait encore poser problème si on est parvenu à créer simultanément 2 objets, mais je crois que c'est impossible grâce au test sur $_SESSION['edit'].)
15 juillet 2009
- Les objets reliés à des parents héritent des valeurs du champ domaine_linguistique. Cet héritage est récursif (multiniveaux). Chaque objet possède en outre 3 valeurs propres pour ce champ.
- La liste des domaines linguistiques est reprise de linguistic-domain de OLAC: 'anthropological_linguistics', 'applied_linguistics', 'cognitive_science', 'computational_linguistics', 'discourse_analysis', 'forensic_linguistics', 'general_linguistics', 'historical_linguistics', 'history_of_linguistics', 'language_acquisition', 'language_documentation', 'lexicography', 'linguistics_and_literature', 'linguistic_theories', 'mathematical_linguistics', 'morphology', 'neurolinguistics', 'philosophy_of_language', 'phonetics', 'phonology', 'pragmatics', 'psycholinguistics', 'semantics', 'sociolinguistics', 'syntax', 'text_and_corpus_linguistics', 'translating_and_interpreting', 'typology', 'writing_systems'.
- Des termes supplémentaires spécifiques au site ont été ajoutés : speech_prosody.
- Les domaines linguistiques (propres ou hérités) sont exportés dans le Dublin Core d'OLAC (à l'exception des termes supplémentaires), ainsi que dans les fils RSS et Atom.
- Requêtes sur les domaines linguistiques.
- Voir proposition sur
wiki du projet pilote.
16 juillet 2009
- Création du champ pro_confidentiel pour enregistrement de données servant à identifier le producteur lors d'une demande de restitution d'archive.
- Lors du traitement d'un aip.xml, son URL est stockée dans depo_url_aip.
17 juillet 2009
- Documentation en ligne sur les données confidentielles.
- Avertissements sur le caractère provisoire des identifiants ARK et des aip.xml pendant la phase de test.
- Modification des messages d'accueil sur les pages principales en fonction de l'état connecté/non connecté de l'utilisateur et de ses droits.
18 juillet 2009
- Bouton « Contact » sur la page d'affichage de chaque objet.
- Sauts de lignes préservés dans le summary des fils RSS et Atom : dans my_strip_tags(), utilisation des codes hexadécimaux :
$texte = str_replace("<br/>","<br/>",$texte)
22 juillet 2009
- Nombreuses corrections pour protéger contre les entrées par effraction.
- Gestion du login des groupes de travail.
- Corrections code HTML des messages.
- Insertion des domaines linguistiques (linguistic-fields) comme éléments <subject> du sip.xml.
23 juillet 2009
- Extraction des aip.xml : pour tout objet archivé, le créateur, une fois identifié, peut demander tous les aip.xml qui ont été archivés à la suite de dépôts. Cette procédure fonctionne de manière analogue à celle des téléchargements.
- Requêtes sur les mots-clés : on balaie aussi les domaines linguistiques.
28 juillet 2009
- Correction de l'ordre des éléments dans la génération de sip.xml en conformité avec le nouveau schéma qui permet un parentage multiple. L'essai sur 000719_meta_v2 est fructueux.
29 septembre 2009
Etude du problème de la longueur maximale des noms de fichiers sous Fedora. La solution implémentée est la suivante : n'imposer aucune contrainte aux producteurs et à modifier automatiquement les objets pour les rendre conformes au stockage dans Fedora et, a fortiori, à l'archivage sur la PAC du CINES. Plus précisément,
- Tous les fichiers se retrouvent "à plat", il n'y a donc plus de sous-répertoires.
- Tous les fichiers sont renommés avec un identificateur unique - concrètement, un nombre entier suivi de l'extension d'origine.
- Un fichier "index.xhtml" est généré automatiquement. Il affiche la hiérarchie d'origine (dans une liste à puces sur plusieurs niveaux) et les noms de fichiers d'origine, tandis que les liens pointent vers les fichiers renommés.
- Lorsqu'un répertoire contient déjà un fichier "index....", celui-ci est renommé comme les autres, et le lien créé dans l'index au plus haut niveau porte la mention "INFO". D'autre part, tous les liens vers des fichiers sont corrigés pour tenir compte des changements de noms. En suivant ce lien on retrouve donc le descriptif détaillé du répertoire tel que l'avait conçu le producteur. Attention : il faudra tenir compte de la présence de plusieurs index dans des langues différentes.
- Cette méthode permet entre autres de gérer des dépôts dans lesquels certains noms de fichiers peuvent être en Unicode extra-européen.
6 octobre 2009
- Traitement des aip.xml reçus : on peut maintenant les placer avec des noms différents dans le répertoire aip_reception, ils seront traités à condition que leur nom commence par "aip".
- Pour le fichier index.xhtml, on utilise maintenant une en-tête typique fourni par W3, mais le fichier n'est toujours pas validé par FACILE.
- Exportation de la version 2 de
crdo000031 reformaté pour compatibilité avec Fedora. La solution n'est pas parfaite puisque (faute de validation) les HTML sont transmis dans le répertoire DIFFUSION et ne sont donc pas archivés.
8 octobre 2009
12 octobre 2009
- Le contenu du répertoire preview est maintenant exporté dans DIFFUSION et non plus dans DEPOT.
- Le fichier index.xhtml indique maintenant la taille des fichiers.
- Les fichiers d'extensions HTM, HTML et XHTML sont provisoirement archivés en étant déclarés comme TXT.
13 octobre 2009
- Création de la procédure clean_export() pour supprimer les fichiers .DS_Store et Icon avant l'exportation des SIP.
- Données confidentielles : un fichier texte est inséré dans DESC.
- Attention : RAIDbackup est devenu RAIDbackup-1.
- On traite et stocke maintenant aussi bien les certificats d'archivage que les aip.xml. Le traitement se fait à partir du contenu du fichier déposé dans aip_reception sans tenir compte de son nom.
- Le fichier index.xhtml (validé par
http://validator.w3.org/ mais refusé par FACILE) est maintenant archivé comme TXT.
19 octobre 2009
Avancée sur la procédure de téléchargement des objets disponibles sous Fedora :
- Dans la procédure reformater_objet() (voir 29 septembre) on crée aussi un répertoire du nom de $id_objet dans le nouveau répertoire download. C'est vers ce répertoire que pointera le lien symbolique pendant la période de téléchargement autorisé.
- A l'intérieur de $id_objet on crée un fichier index.xhtml presque indentique à celui créé dans export, sauf que chaque lien pointe maintenant vers un fichier PHP (généré automatiquement) qui appelera l'identifiantDocPac de l'objet puis le code du script de téléchargement.
- Au moment de traiter l'aip.xml reçu, un fichier identifiant.php est automatiquement placé dans le sous-répertoire approprié de download. Le script de téléchargement est maintenant capable de former l'URL du fichier sous Fedora.
- Il ne reste qu'à mettre au point le script de téléchargement (voir getDatastream fourni par Pierre-Yves).
20 octobre 2009
- La procédure de reformatage des objets (voir 29 septembre et 19 octobre) est maintenant intégrée à celle de copie des objets dans le répertoire export. L'objet reformaté sera donc archivé et retransmis au CC-IN2P3 mais pas conservé sur le site. Seule est conservée l'image de cet objet dans download, avec les liens qui lanceront la procédure getDatastream.
- En cas de nouvelle version, le répertoire précédemment créé dans download est préservé (avec "(old)" dans le nom).
- Lorsqu'un nouvel aip.xml est traité, l'identifiantDocPac qu'il contient écrase l'ancienne valeur dans l'image de l'objet dans download. Ainsi on téléchargera nécessairement la dernière version de l'objet.
- Ce remplacement n'a pas lieu s'il s'agit seulement d'une modification de métadonnées.
27 octobre 2009
- Données confidentielles : on peut ajouter la date à laquelle toutes les données (et métadonnées) de l'objet seront du domaine public.
- Données confidentielles : les tags sont maintenant de type XML.
- REMISE A ZERO DE L'ARCHIVAGE (Début de la 2e phase de test)
- Suivre la recette
31 octobre 2009
- Données confidentielles : mise au point du schéma confidentiel.xml. (Voir doc)
- Vérification de la cohérence des liens de parenté sur la PAC : on ne peut plus archiver un objet s'il possède des parents non archivés.
20 novembre 2009
- Mise en place du schéma définitif pour la validation des SIP.
1er décembre 2009
- Essai d'installation de SOAP dans PHP, puis réécriture (par Pierre-Yves) des scripts de récupération sous Fedora sans utiliser SOAP.
2 décembre 2009
- Modification de la génération de <docmeta> dans le SIP suite à la nouvelle syntaxe de définition des relations. (À tester lorsque le nouveau sip.xsd sera disponible)
3 décembre 2009
- Mise au point du script de récupération des objets sous Fedora avec modification de la génération des pages de l'objet image (voir 19-20 octobre).
- Les scripts sont détaillés sur la page
http://www.tge-adonis.fr/wiki/index.php/ScriptsRecuperationFedora. - TOUT FONCTIONNE !
7 décembre 2009
- Dans SendMailCRDO(), des headers ont été corrigés pour éviter le rejet de messages de service par certaines messageries. (Tests sur le suivi de crdo000758, voir
http://tools.ietf.org/html/rfc5322). - Le téléchargement se fait maintenant depuis le CC-IN2P3 pour tous les objets archivés et tous les utilisateurs => sécurisation du répertoire download et création d'un utilisateur privilégié pour les tests.
9 décembre 2009
- Champs distincts dans t_corpus pour les formats audio et vidéo : permet de prendre en compte des corpus à la fois audio et vidéo.
- Modification du formulaire de recherche prenant en compte cette distinction.
- Dans preview on peut mettre maintenant des fichiers liste_en.txt, liste_es.txt, liste_fr.txt, liste_zh.txt contenant les titres à afficher sous les lecteurs de streaming, dans chaque langue. Voir par exemple
http://crdo.fr/crdo000764.
11 décembre 2009
- Premiers versements selon le nouveau schéma de relations (2 objets). Le système côté PAC n'est pas encore fonctionnel en versionnage.
- Début d'un module de conversion automatique d'encodages texte. Il reste à vérifier les encodages d'origine.
Voir docs :
http://www.phpwact.org/php/i18n/charsets et
http://fr2.php.net/utf8_encode
13 décembre 2009
- Améliorations de l'affichage de la liste de langue : on fait apparaître la langue standard -> la langue spécifique.
- Préparation de l'exposé du 17 décembre.
- Traitement des liens externes : installation de
jQuery et des scripts :
http://jaspan.com/external-links-in-new-window-without-target
15 décembre 2009
- Dans la liste des téléchargements, on affiche maintenant un bouton "contact" en remplacement de l'adresse email des personnes => Les adresses sont invisibles.
- Début de rédaction du cahier des charges de l'authentification centralisée. Voir
wiki du projet pilote.
17 décembre 2009
- Présentation du CRDO à la Journée des plateformes linguistiques, siège du CNRS.
19 décembre 2009
- Implémentation de nouvelles règles de réécriture sur Apache, voir Redirections.
- Le SIP des corpus et ressources comprend maintenant un fichier droits.xml (dans le répertoire DESC) qui sert à lister les groupes ayant accès à l'objet. Exemple :
<?xml version="1.0" encoding="utf-8"?> <!DOCTYPE droits [ <!ELEMENT droits (groupe*)> <!ELEMENT groupe (#PCDATA)> ]> <droits> <groupe>1</groupe> <groupe>2</groupe> <groupe>3</groupe> </droits>
20 décembre 2009
- Implémentation de prochain_id_libre() pour combler les trous dans l'indexage des objets
- Dans la liste des extensions de fichiers à traiter comme TXT, on peut mettre (vide) ou n'importe quel mot entre parenthèses, pour signifier que tout fichier sans extension peut être considéré comme un fichier TXT.
- Fin du module de conversion automatique d'encodages texte. Le convertisseur repère aussi les chaînes "iso-8859-1" ou "iso-8859-15" dans les fichiers, et les remplace par "utf-8".
- Dépôt d'une archive de SldrWiki après conversion iso-8859-15 -> utf8. Attention : la sauvegarde zippée sous PhpWiki ne permettait pas de récupérer les pages sous le namespace "Developpement" car il existait déjà une page "Developpement". Par conséquent, unzip refusait de traiter "Developpement/...". Cette page a été renommée "Developpement_fr".
21 décembre 2009
- Ajout de la signature md5 dans sip.xml.
23 décembre 2009
- Implémentation d'une procédure en admin pour supprimer des objets.
- Suppression de quelques objets de test.
- Correction du processus d'authentification lors de l'appel d'un téléchargement.
- Correction dans MoveFiles() : guillemets pour copier fichiers aux noms contenant des espaces.
31 décembre 2009
- Nombreux aménagements de l'affichage en admin pour le suivi des utilisateurs.
- Création du champ « métier » dans le profil des utilisateurs et affichage spécial des profils incomplets.
- Test très favorable de
PmWiki pour le remplacement de PhpWiki. La syntaxe alternative des liens permettra une conversion très facile. D'autre part, la procédure
AutoLink remplacera les redirections de pages vers des URL externes.
10 janvier 2010
- Travail sur un logiciel de migration PhpWiki -> PmWiki.
- On part de la sauvegarde de PhpWiki : dézippage puis conversion vers UTF-8 avec correction de caractères non-gérés par PHP (tirets allongés, oe entrelacé, apostrophe courbe...)
- La conversion restitue comme date la date de dernière modification du fichier source.
- Les pages de redirection sont remplacées par un SiteAdmin.AutoLink généré automatiquement. Il reprend, le cas échéant, la version courante pour y ajouter des liens.
- Les liens sont corrigés après que les pages aient été renommées.
- Par défaut, les pages publiques vont dans le groupe Main. Les pages privées vont dans un groupe Intranet et l'ID de l'auteur est conservé.
- Les pages contenues dans un répertoire Dossier vont dans le groupe Dossier créé automatiquement.
- Les pages contenues dans un répertoire cat.Categorie sont affectées à la catégorie Categorie.
- Les images sont restituées avec leur lien éventuel et leur option d'alignement left/right si elles sont flottantes.
Il reste à faire :
- Conversion des tableaux
- Conversion des insertions de pages
- Création automatique de catégories
18 janvier 2010
- Fin du convertisseur (sauf certains styles de tableaux)
- Etude détaillée de la configuration de PmWiki
- Test de lien « Share » avec réseaux sociaux sur page détail d'objet
- Test de Stribe community sur page d'accueil
28 janvier 2010
- Convertisseur wiki testé sur d'autres sites. La conversion des tableaux est maintenant complète.
- Mise au point du versionnage : ok du côté CINES, des problèmes à régler sur les relations côté CC-IN2P3.
- Test de versement d'objets volumineux (22 Gb). OK du côté CINES.
- Correction d'un bug qui inscrivait un tag <em> autour du titre de l'objet sur le fichier index.xhtml, rendant impossible son affichage.
6 février 2010
- Lancement de la deuxième phase de tests après RAZ de la PAC et de l'espace Fedora.
- Pour tout objet archivé il est maintenant possible de télécharger séparément chaque version. Par défaut on télécharge la dernière, mais en appelant crdoxxxxxx_vN on récupère la Ne version.
23 février 2010
- Le contenu du répertoire preview de chaque objet est maintenant archivé comme les autres répertoires/fichiers, avce renommage et classement dans DEPOT ou DIFFUSION selon la compatibilité du format. Ce dispositif permet (1) d'archiver réellement certains documents en preview ; (2) d'y accéder via le script de connexion à Fedora ; (3) de résoudre les problèmes de restrictions sur les noms de fichiers dans Fedora.
3 mars 2010
- Implémentation de la gestion du laboratoire producteur (table t_producteur).
- Ce laboratoire apparaît maintenant dans les listings ainsi que dans les métadonnées DC en tant que publisher.
- Mention explicite du déposant comme rightsHolder dans les métadonnées DC.
4 mars 2010
Pour les admin, liens directs sur la fiche de l'objet :
- URL du répertoire download de la version courante, avec lien permettant un téléchargement direct ;
- id PAC de la version courante (pas nécessairement le même qui est utilisé dans l'id ARK) ;
- Lien vers le répertoire FedoraCommons affichant uniquement la version courante de l'objet. Ce lien est utile pour vérifier que l'objet est disponible après que l'aip.xml ait été traité.
- Le laboratoire producteur est inscrit comme publisher sur la page index.xhtml servant au téléchargement.
5 mars 2010
Les numéros de version des objets apparaissent maintenant :
- sur les messages électroniques expédiés à chaque téléchargement ;
- dans la table t_telechargement pour distinguer les téléchargements d'un même objet par une même personne mais en versions différentes ;
- sur la liste des téléchargements (communauté d'utilisateurs).
- Si l'authentification a lieu après une demande de téléchargement, la version sélectionnée est bien prise en compte. (Auparavant c'est la version courante qui était présentée.)
6 mars 2010
- Les métadonnées DC de localisation temporelle/spatiale sont maintenant attachées à tout objet et pas seulement aux données primaires. Cette disposition permet entre autres de spécifier une localisation pour les collections.
8 mars 2010
- RAZ de l'archivage.
- Test de la plateforme d'archivage (PAC) en mode production : dépôt de crdo000763 (6536) et de crdo000037_v1 (6539).
- Rebascule en mode de test et dépôt de crdo000036 (8847) avec lien de filiation avec crdo000763 (6536).
11 mars 2010
- Ajouté un champ depo_mode dans t_depot avec les valeurs 'prod' et 'test' pour indiquer dans quel environnement le dépôt a été archivé. Ce champ permet de faire une RAZ des dépôts de tests sans toucher à ceux réalisés en production.
- D'autre part, ce champ oriente le téléchargement vers l'espace fedora.tge si l'objet a été archivé en production ou fedora-dev.tge s'il a été archivé en test. A cet effet, la valeur de depo_mode est stockée dans identifiant.php au moment du traitement de l'aip.xml.
- La variable globale $mode_archivage permet de mettre le serveur en mode 'test' ou 'prod'. Attention : il faut quand même corriger manuellement SERVEUR_DISTANT dans scriptVersementCINES.sh.
16 mars 2010
- Ajouté la possibilité de mettre des fichiers ou répertoires dans un répertoire TEMP pour indiquer qu'ils ne doivent pas être archivés mais transmis au CC-IN2P3 via le répertoire DIFFUSION.
- Documentation : Packaging-en
26 mars 2010
- Possibilité d'embedding d'objets dans la fenêtre de preview.
- Lorsque le nombre de fichiers MP3 en streaming est élevé, seuls les 9 premiers liens sont affichés, avec option de les afficher en entier.
- Lien vers les objets Fedora dans
l'historique d'archivage. - Traitement de l'instruction source dans les laboratoires producteurs. Voir Producteurs-fr.
- Test d'identification via Renater sur une application de démonstration TGE-Adonis :
http://opends.tge-adonis.fr/myblog/.
12 avril 2010
Reçu de la Direction de l'Institut SHS la lettre annonçant la fusion des deux composantes CRDO :
http://crdo.fr/docs/admin/LettreInShs-100412.pdf- Réponse de Bernard Bel à un commentaire de Stéphane Pouyllau
- Commentaire de Michel Jacobson (privé)
16 avril 2010
- Création automatique d'une page de téléchargement index.xhtml pour chaque dépôt non archivé, sur le même modèle que la page liée au CC-IN2P3.
- Un bouton sur la fiche du dépôt permet aux admin de créer ou mettre à jour cet index.
- Cette page n'est pas créée s'il existe déjà index.html, index.htm ou index.php.
- Cette page n'est pas envoyée à l'archivage.
24 avril 2010
- Accès direct (sans authentification) à certains fichiers d'un objet disponible sous Fedora : une règle implémentée dans FedoraCommons permettra de modifier les droits d'accès pour chaque fichier. Pour cela, dans le répertoire "DEPOT/DESC" du SIP, on place un fichier "public.txt" qui contient la liste des fichiers pour lesquels le filtrage IP sera désactivé.
- Le choix de cet emplacement permet de modifier les droits d'accès par une simple mise à jour des métadonnées plutôt que de déposer une nouvelle version de l'objet.
- Sont déclarés en accès ouvert tous les fichiers qui sont en "vitrine" ("preview") plus ceux qui placés dans des répertoires "PUBLIC" n'importe où dans la hiérarchie de l'objet.
- Une copie du fichier "public.txt" est conservée dans le dossier de la version courante de l'objet, dans le répertoire download. Elle est utilisée lors de la mise à jour des métadonnées car ce fichier ne peut pas être reconstruit simplement.
26 avril 2010
- Suite à discussion avec PYJ, "public.txt" devient "public.xml" et il contient le datastream complet du fichier à mettre en libre accès.
- Le fichier de métadonnées métier versé dans DEPOT/DESC est maintenant simplement nommé "olac.xml" au lieu de contenir l'id de l'objet.
- Ce fichier est listé systématiquement dans "public.xml" pour être en libre accès quels que soient les droits sur l'objet. Cette disposition permettra la récuparation de métadonnées OLAC directement depuis Fedora (sans passer par le CRDO).
- Voir
résumé sur le wiki de TGE-Adonis.
16 mai 2010
- Nombreux essais infructeux de dépôt d'un objet de taille importante (environ 30 Go).
- Les diagnostics de la plateforme d'archivage révèlent que la restauration de l'objet n'est pas complète et/ou que les fichiers invisibles (commençant par "._") ne sont pas supprimés comme prévu.
- Ce problème est réglé par un réajustement du batch de commandes de restauration, tenant compte du fait que la suppression de tmp.tgz prend assez de temps pour que la PAC commence à traiter le dépôt sans attendre l'exécution des commandes de nettoyage de fichiers indésirables.
- Le script modifié fonctionne avec un dépôt de taille moyenne. Pour un dépôt de grande taille il échoue en TIMEOUT après environ 40 heures. La question est donc posée aux administrateurs de la PAC.
- Authentification : le service OpenSSO est maintenant fonctionnel sur TGE-Adonis. L'implémentation du Policy agent se fera donc sans tarder.
18 mai 2010
Les développements sur ce site visent maintenant à la conformité avec les instructions de ces deux documents :
Lettre d'intention du Lacito et du LPL concernant le CRDO (18 mai 2010,
voir copie)
Annexe de la lettre d'intention du Lacito et du LPL concernant le CRDO (18 mai 2010,
voir copie)
21 mai 2010
- Pierre-Yves a modifié expérimentalement un dépôt dans l'espace de diffusion pour faire apparaître sur un objet particulier l'effet d'une règle qu'il est en train d'implémenter. L'objet est
http://crdo.fr/crdo000005. - En cliquant l'icône de "Fichiers" dans la "Table des matières" on peut dérouler la liste des fichiers contenus dans cet objet. Le lien "Métadonnées métier" en haut à droite de cette liste fait apparaître le contenu d'un fichier XML qui contient toutes les métadonnées OLAC de cet objet. Liste qui fournit entre autres l'index "crdo000005".
- L'URL de ce fichier XML est
http://fedora-dev.tge-adonis.fr:8091/fedora/get/CRDO-Aix:12654/DEPOT_DESC_olac.xml - Cette URL peut être fabriquée automatiquement puisque la seule variable est le nombre "12654" qui est l'identificateur sur la plateforme d'archivage. (Note : l'identificateur ARK de l'archivage pérenne contient l'identificateur de la première version de l'objet : 12515)
- Ceci entraîne que lorsque la règle sera implémentée et lorsque tous les objets auront été redéposés pour de bon (en production) il sera possible de récupérer leurs métadonnées directement sur le serveur de distribution (donc sans passer par le CRDO) et ces métadonnées fourniront aussi l'index crdoXXXXXXX qui permettra de lancer d'autres traitements via
http://crdo.fr/crdoXXXXXX/UnTraitement. - Cette procédure sera particulièrement utile aux requêtes lancées sur les portails : Langues de France, Isidore de TGE-Adonis etc.
- Pour que ce processus fonctionne j'ai demandé (1) que tous les objets CRDO utilisent l'indexation unique crdoXXXXXX quel que soit le service versant, (2) que le fichier de "métadonnées métier" porte le même nom (olac.xml) pour tous les objets, et (3) que ce fichier soit déclaré en accès ouvert quelles que soient les restrictions d'accès au contenu de l'objet.
- Dans la solution implémentée il est par ailleurs possible de déclarer en accès ouvert n'importe quel fichier contenu dans l'objet. Déjà, tous les fichiers contenus dans le répertoire "preview" (la vitrine) sont en accès ouvert même s'ils sont invisibles dans la vraie vitrine sur crdo.fr, par exemple
http://fedora-dev.tge-adonis.fr:8091/fedora/get/CRDO-Aix:12654/DEPOT_322.jpg
alors que par exemple
http://fedora-dev.tge-adonis.fr:8091/fedora/get/CRDO-Aix:12654/DEPOT_2.tiff
reste interdit d'accès. - On pourra donc placer systématiquement dans "preview" les fichiers WAV et XML qui servent au Portail des langues de France (ou au site du Lacito) pour l'écoute des fichiers avec visualisation synchronisée des annotations.
25 mai 2010
- Implémentation de l'instruction affichant la table des matières détaillées, par exemple
http://crdo.fr/crdo000731/toc ou
http://crdo.fr/crdo000731/toc/fr - Sur l'objet crdo000731, réglage des publics à titre d'essai.
- Rédaction de la page
http://www.tge-adonis.fr/wiki/index.php/QuestionsEtSolutionsCrdo : Questions techniques relatives au dépôt des données CRDO et solutions implémentées sur crdo.fr à titre de démonstration
