Zoom sur LIBRIS, le catalogue suédois qui voulait participer au Web sémantique

By Theherald (Own work) [GFDL (http://www.gnu.org/copyleft/fdl.html) or CC-BY-3.0 (http://creativecommons.org/licenses/by/3.0)], via Wikimedia Commons

Un pays qui fout des rennes sur tous ses blasons, comment voulez-vous que je résiste? By Theherald (Own work) [GFDL (http://www.gnu.org/copyleft/fdl.html) or CC-BY-3.0 (http://creativecommons.org/licenses/by/3.0)%5D, via Wikimedia Commons

[English version available]

Le regard du réseau-qui-se-cherche-un-outil-de-catalogage-partagé est en partie tourné vers la Suède, qui a fait le choix ambitieux/courageux/téméraire/fou (chacun son point de vue) de miser totalement sur le Web sémantique.

Ils développent pour leur catalogue collectif national LIBRIS une nouvelle architecture, LIBRIS-XL, ainsi que leur propre outil de catalogage partagé, destiné à produire des données en RDF. Ils remplacent donc MARC21 comme format interne de stockage des données par le format JSON-LD. A noter que cet outil devait entrer en production en mars 2014 mais que l’échéance a été repoussée à l’automne 2014.

Prudents, les développeurs suédois ont prévu de proposer une interface permettant la production des données bibliographiques en RDF mais de maintenir parallèlement la production en MARC21 pour les catalogueurs expérimentés. La cohabitation MARC / RDF devrait durer un certain temps pour permettre les échanges internationaux de données.
La Suède n’a donc pas du tout l’intention de se couper du monde.

A noter que son catalogue vise à implémenter le modèle FRBR, et qu’ils utilisent en priorité le vocabulaire déclaré de Bibframe, format en cours de développement aux Etats-Unis et destiné à remplacer les formats MARC. La Suède a également choisi d’adopter RDA à partir de 2015, ce qui est plutôt logique pour les pays appliquant les normes AACR2, puisque RDA vient les remplacer.

A quoi ça ressemble l’interface de catalogage suédoise?

On peut tester l’interface de catalogage suédoise (et merci Google translate), il suffit de saisir “test” en identifiant et mot de passe : http://devkat.libris.kb.se/login
LIBRIS catalogage

Pas de langage informatique qui pique les yeux (des catalogueurs), le catalogueur sera face à un formulaire assez classique avec champs à remplir pour décrire son document (ISBN, nombre de pages, date de publication, etc.).
Qui dit RDF et Web de données ne veut pas dire que les catalogueurs doivent devenir informaticiens.
Comme précisé dans la présentation faite sur Libris lors du dernier congrès ELAG, La différence avec les données liées, c’est qu’on va en priorité choisir parmi des entités existantes plutôt que décrire les éléments par des chaînes de caractère. D’où aussi l’idée du catalogueur qui devient « catalieur » – c’est très tendance, le catalieur/catalinker.

 Alors, il est bien, le scénario suédois ?

Je vous l’avoue volontiers, il me fait rêver ce scénario suédois. Se tourner résolument vers l’avenir, être audacieux, être un modèle d’innovation (bon, après les suédois, OK), c’est déjà motivant.
Mais surtout, développer un outil qui convienne réellement à la configuration et à la culture de notre réseau, s’affranchir des limites de développement imposées par des systèmes propriétaires, pouvoir créer, ajuster, adapter, garder de la souplesse, ne pas être dépendant, maîtriser nos données… Voilà ce que je trouve exaltant dans ce scénario.

Mais il existe un principe de réalité, me souffle-t-on dans l’oreillette.

Le “scénario suédois” est-il applicable en France ?

On ne partirait pas de zéro, puisqu’on pourrait s’appuyer sur l’expérience des Suédois (voir leur démarche présentée par Kristin Olofsson aux Jabes 2010), mais il y a des différences notables.

Le réseau suédois, c’est environ 180 établissements / 350 bibliothèques. Le réseau Sudoc, c’est environ 3100 bibliothèques (dont plus de la moitié “non déployées”, participant au Sudoc-PS). Plus grande envergure = plus grande complexité et une plus grande capacité serveurs nécessaire, pour le moins.

Ce projet est porté par la Bibliothèque Nationale de Suède, qui dépend du Ministère de l’Education et de la Recherche et coordonne le travail de l’ensemble des bibliothèques, publiques et académiques, dans le Catalogue collectif suédois, LIBRIS. Les moyens et les appuis politiques ne sont vraisemblablement pas les mêmes et la coordination est simplifiée. De notre côté, il nous faut non seulement réfléchir au remplacement du Sudoc mais aussi à son articulation avec le catalogue général de la BnF, pour commencer.

[Edit 18/03/14 : j’ajoute que ça fait un moment qu’on s’intéresse au RDF et que l’ABES travaille dessus. Je m’aperçois aujourd’hui que j’étais passée à côté de l’indispensable J’e-cours Format RDF et FRBRisation des données, que je vous invite à (re)voir!]

Et la conversion MARC -> RDF, ça marche?

Je n’ai pas encore tout tout bien saisi de la complexité des transformations possibles d’un format à l’autre, plusieurs personnes à l’ABES ont bien essayé de me l’expliquer, mais ça ne rentre pas encore tout à fait.
Si j’ai bien compris, exprimer nos données Unimarc en XML ne pose pas de problèmes, la granularité et la précision sont donc les mêmes en Unimarc dans CBS (le “coeur” du Sudoc) et dans la base miroir du Sudoc en XML.

Là où ça devient compliqué, c’est d’exprimer ces données en RDF. Ce n’est pas parce que XML = Web et RDF = Web que XML = RDF.
Grosso modo en Unimarc comme en XML les données s’articulent et font sens quand elles sont dans un certain ordre, et cet ordre nous est dicté par l’ISBD. Ce qui ne colle pas avec le fonctionnement du modèle RDF, qui s’affranchit complètement de toute idée d’ordre des données dans la description bibliographique.
C’est encore un peu flou pour moi, mais je crois comprendre que demander à une machine d’exprimer automatiquement en RDF certaines choses, c’est galère.
Exemple d’un ouvrage qui contient plusieurs oeuvres de plusieurs auteurs différents :

200 1#$aThe @white devil$bTexte imprimé$aThe duchess of Malfi$fby J. Webster$cThe atheist’s tragedy$aThe revenger’s tragedy$fby Tourneur$g[all] edited with an introduction and notes by J.A. Symonds

La machine ne peut pas différencier un premier 200$a d’un second 200$a, hiérarchiser Titre n°1 et Titre n°2 et apparier le bon titre avec le bon auteur. [Merci à @Iladpo d’avoir complété l’exemple!]

Le problème n’est pas tant l’Unimarc que l’ISBD en amont. Il existe un vocabulaire ISBD développé par l’IFLA pour le Web sémantique mais qui devrait être infiniment plus complexe pour pouvoir couvrir tous les cas.
C’est ce que je comprends des difficultés posées par l’automatisation d’un moulinage Unimarc vers RDF via XML. SVP corrigez-moi en commentaire au besoin !
[Edit 19/03/14 : voir aussi le billet du 16/01/2013 d’Etienne Cavalié  Une notice Unimarc/RDF ?]

Ce travail relèverait du périmètre du hub de métadonnées, qui a déjà pas mal de chats à fouetter avec l’intégration des métadonnées des licences nationales.

Alors les Suédois, ils font comment, eux, puisqu’ils ont l’air d’y arriver?

Eh bien ils n’y arrivent pas. Pas complètement. Mais ils ont décidé que ce n’était pas la priorité. C’est du moins ce que je comprends d’une conversation avec Martin Malmsten et Niklas Linström (Bibliothèque nationale de Suède), ainsi que des propos de Martin Malmsten dans son article Making a library catalogue part of the semantic Web (2008).
Leur position est claire dès l’abstract :

« The focus is on links to and between resources and the mechanisms used to make available, rather than perfect description of the individual resources. »

Les Suédois ont décidé que l’important, c’était d’exposer et de lier les données et de participer ainsi au Web sémantique, quitte à faire le deuil d’une certaine qualité et complétude des notices bibliographiques existantes.
L’un des arguments est d’ailleurs que cette qualité et complétude sont toutes relatives dans le catalogue existant, en raison des fréquents changements de règles et pratiques sur les 30 dernières années, et que le nouveau système permettra justement de retravailler et améliorer les données  :

« Also, thirty years of continually changing cataloguing rules and practices have left some data in an inconsistent state. Our hope is that the result of the work described will help us work with data in a new and better way. »

On pourrait imaginer comme les suédois continuer à faire cohabiter une source de production en Unimarc transformée en XML dans une base miroir pour desservir les web services et API, et parallèlement une source de production “maison” en RDF (je ne sais pas quel est le format utilisé actuellement par l’ABES, je crois que plusieurs cohabitent) inspirée de Bibframe, vouée à supplanter l’autre à terme quand tout le monde s’y sera mis – c’est un pari, mais un pari qui ne me semble pas trop risqué. Bibframe va mûrir et remplacer à terme les formats MARC, on ne ferait que prendre les devants (pour une fois).

La production en Unimarc pourrait se faire dans les systèmes next generation, type Alma ou Worldshare, pour les sites qui seraient résolus à utiliser le workflow de ces systèmes au maximum de son potentiel, en cataloguant dans leur propre système, donc.

Comment tout cela s’articulerait, schématiquement ?

Billet Libris (1)Sans doute des lacunes et imprécisions sur ce schéma, qui s’inspire en partie des schémas produits par le consultant Maurits van der Graaf et présentés notamment lors de la journée  « Ré-informatiser à l’heure du SGBM » organisée par l’ADBU le 20 février dernier.
Je cite Alma, WMS et Sierra comme systèmes dans les nuages, mais ce n’est qu’à titre d’exemple, il y en a d’autres.

Est-ce qu’on est pressé?

L’ABES n’a a priori pas les moyens humains et financiers de se lancer dans un projet de cette ampleur, et faire ce choix nécessiterait une implication politique forte.

Cela dit notre système actuel a encore quelques années devant lui, mettons entre 5 et 10 ans.
Il n’est pas question de retarder l’ensemble du projet SGBM, l’intérêt des sites pilotes pour le projet se basant sur un besoin de réinformatisation à courte échéance. Mais l’option retenue pour le projet SGBM a été de désolidariser les fonctions locales de la production et gestion de (méta)données . Il est acté à l’heure actuelle qu’on prendra plus de temps pour décider de l’avenir du catalogue collectif que pour mettre en place un SGBM.

Est-ce qu’on pourrait imaginer un développement de notre futur catalogue collectif et outil de catalogage partagé “à la data”, en faisant appel à un prestataire extérieur spécialisé dans le Web sémantique, comme l’a fait la BnF avec la société Logilab en s’appuyant sur le logiciel CubicWeb pour développer data.bnf.fr ? Est-ce qu’on pourrait imaginer un financement type investissements d’avenir comme ça a été le cas pour le projet Istex ?

Il y a plein de trous dans ma réflexion, j’en suis bien consciente, il y a pour commencer beaucoup d’aspects techniques que je ne maîtrise pas. Mais il me semble qu’il est encore tôt pour renoncer à rêver.

Mais au fait, est-ce qu’on a encore besoin d’un outil de catalogage partagé (ou d’un réseau national)?

Comme je suis particulièrement feignasse, je dirais que oui. Pas feignasse parce que j’ai la flemme d’argumenter, mais feignasse parce que je trouve ça extrêmement confortable d’avoir une agence nationale pour centraliser / préconiser / arbitrer, et de pouvoir compter sur les camarades du réseau pour faire le boulot à ma place partager le travail.
La langue française est encore très utilisée par la communauté universitaire, ça reste flagrant chez les premiers cycles, et il me paraît donc nécessaire de continuer à proposer de la documentation et de l’indexation dans notre langue, a minima. Par ailleurs, notre catalogue collectif sert aussi à donner accès à des éditions locales francophones pour lesquelles il nous faudra encore un moment produire nous-mêmes les descriptions bibliographiques. Ne serait-ce que pour les thèses, on a besoin d’un outil commun et d’un réseau bien structuré.
Même si nous produisons de moins en moins les données nous-mêmes et que nous récupérons de plus en plus des données d’éditeurs, nous allons être amenés à retravailler ces données pour les besoins spécifiques des bibliothèques. Je reste convaincue que la précision et la justesse de l’information dispensée par les catalogues de bibliothèque reste un de nos atouts.
Retravailler ces données, ça ne veut pas dire épépiner chaque notice à la mano mais automatiser un maximum de traitements. L’automatisation ayant cependant ses limites, les spécialistes des données bibliographiques (aka les catalogueurs) seront sollicités pour participer à des chantiers visant à améliorer les données des éditeurs. Pour cela il faut une coordination forte. A nous tous et avec un coordinateur au niveau national, on peut faire du sacré bon boulot en y consacrant le moins de temps possible.

Qu’une agence nationale soit là pour harmoniser les pratiques, élaborer des règles communes, gérer la maintenance d’un catalogue commun, négocier des contenus, etc., je trouve que c’est plutôt une bonne chose, c’est autant de questions en moins à se poser établissement par établissement.
Le réseau, c’est beau, je like.

Vous ne pensiez pas sérieusement échapper à mon groupe préféré sur ce billet ?

Encore un peu d’interface
Bon, z’ont peut-être quelques problèmes de dédoublonnage dans leurs autorités. Je suis sûre que notre IdRef national est vachement plus performant.
LIBRIS katalogisering_autorités

Publicités

9 réflexions sur “Zoom sur LIBRIS, le catalogue suédois qui voulait participer au Web sémantique

  1. Pingback: Zoom sur LIBRIS, le catalogue suédois qu...

  2. Pingback: Zoom sur LIBRIS, le catalogue suédois qu...

  3. Pingback: Recherche en bibliothèque | Pearltrees

  4. Bonjour,
    Peut-être un début de piste pour le RDF et le XML : il existe une syntaxe RDF/XML proposée par le W3c (l’organisme qui gère les normes pour les langages web). Cela pourrait peut-être constituer une solution pour éviter cette cohabitation (si bien sûr, c’est applicable au monde à part des bibliothèques 😉 ).

    J'aime

    • J’ai bien peur que le monde hyper normalisé du catalogage ne s’accommode mal de ce qui fonctionne pour le reste du monde! 😉
      En fait pour que ça colle, on ne peut pas échapper à une révision totale de nos normes de description bibliographique, qui ne sont pas adaptées aux langages web – mais c’est en cours! Le temps de la normalisation est juste très long, on ne sait plus être patient (moi particulièrement), à une époque où tout bouge tout le temps. Y’a plus de saison, mon bon Monsieur.
      Cela dit, moi j’aime bien la philosophie des Suédois, qui estiment que quoi qu’on fasse aujourd’hui, on vise une cible mouvante à laquelle on doit s’adapter en faisant. On se lance, et puis on ajuste en chemin.
      To be continued…

      J'aime

  5. Pingback: Veille hebdomadaire – 23.03.14 | Biblio Kams

  6. Pingback: WorldShare et le catalogueur | LaFacette

  7. Pingback: LIBRIS, the Swedish catalog that wanted to participate in the Semantic Web | LaFacette

  8. Pingback: Zoom sur LIBRIS, le catalogue suédois qu...

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s