L’importance du contexte de la recherche dans les systèmes d’information documentaire

Avec la fin de l’année s’achève la période des hackathons et autres conventions tirées de l’univers du numérique et que l’on retrouve de plus en plus dans les institutions culturelles.

Pour ma part, après avoir fréquenté les couloirs de la WikiDataCon en octobre dernier, j’ai participé à la seconde édition du hackathon de la BNF (au sein de l’équipe MusiViz, qui a remporté l’édition 🙂 ) puis au barcamp des Archives nationales qui s’est tenu début décembre.

Or il s’avère que lors de ces deux derniers évènements, j’ai travaillé sur des projets très similaires, tous les deux portés sur la compréhension des données par l’utilisateur. L’objectif de ce billet est donc de vous faire part de mes impressions lors de ces deux évènements, et notamment sur les bénéfices de l’adaptation des interfaces de recherche documentaire au contexte de la recherche.

De la musique et des données

Logo du projet MusivzPour le projet MusiViz (au hackathon de la BNF), nous avons cherché avec notre équipe à rendre tangible un type de contenu généralement complexe à représenter : l’audio. La question initiale que nous nous sommes posés a été la suivante : « en tant qu’utilisateur de Gallica, de quelles informations ai-je besoin pour trouver et sélectionner les documents audio qui m’intéressent ? »

Page de résultats de recherche de Gallica
L’actuelle page de résultats de recherche de Gallica

De ce point de vue, nous nous sommes penchés sur les manières de rendre visible dès la page de résultats de Gallica le contenu de la piste audio. Nous avons donc travaillé autour de deux fonctionnalités durant les 24h qui nous étaient allouées : la génération à la volée de spectrogrammes des pistes audio et la génération de flux d’images relatifs au contenu d’une piste audio. C’est plus particulièrement à la première de ces fonctionnalités (le spectrogramme) que je vais m’intéresser ici.

Un exemple de spectrogramme tiré de Musiviz
Un exemple de spectrogramme tiré de Musiviz

Dit comme cela, on peut se poser la question : qu’est-ce que ça apporte concrètement de montrer un spectrogramme alors que ce que cherche à priori un Gallicanaute est un résultat correspondant à certains mots-clés, qu’il retrouvera dans le titre de sa piste audio ?

L’importance du contexte de la recherche

En réalité, lorsque vous effectuez une recherche sur le web, vous la réalisez systématiquement dans un contexte précis. Prenons un exemple : je fais une recherche sur Thomas Couture.

Si vous, qui me lisez de l’autre côté de l’écran, ne connaissez pas cette personne et souhaitez en savoir plus à son propos, vous allez probablement taper son nom dans Google (ou votre moteur de recherche favoris). La question qui se pose est : à ce moment précis, que souhaitez-vous savoir sur Thomas Couture ? À priori pas toute sa biographie, ni son apparence physique pas plus que l’histoire de ses parents. Non, à priori, vous voulez juste savoir de qui je parle et vous allez donc vous concentrez sur des informations génériques du type : qu’a-t-il fait dans sa vie, quand a-t-il vécu, pourquoi est-il connu ?

C’est en fonction de ce contexte de recherche que vous allez sélectionner les résultats (c’est à dire ici les pages web parlant de Thomas Couture) qui vous intéressent. Et donc si l’on suit notre exemple, comme vous souhaitez obtenir rapidement des informations générales sur Thomas Couture, vous allez plutôt privilégier sa page Wikipédia (si ce n’est uniquement l’introduction de cette page) à sa biographie de 700 pages par Albert Boime sur Google Books.

Ce choix est dicté par votre connaissance préalable de la recherche documentaire. En effet, vous avez acquis (par connaissance ou expérience) le fait qu’une page biographique sur Wikipédia présente un résumé normé d’une personne et que, au contraire, il est souvent difficile de trouver d’un seul coup d’œil les principales informations biographiques d’une personne dans un ouvrage de 700 pages.

Dans les interfaces de recherche documentaires patrimoniales

Les personnes qui effectuent une recherche sur une bibliothèque numérique telle que Gallica ou plus globalement sur une base de données patrimoniales sont soumises aux mêmes logiques.

En effet, quelque soit le contexte de ma recherche, toute information qui m’aidera à l’optimiser (par exemple en éliminant le bruit dans les résultats et en atténuant les silences) sera la bienvenue.

 

Ainsi, sur la capture d’écran suivante tirée de notre prototype MusiViz, chaque spectrogramme représente en quelque sorte l’emprunte du son. Et vous constatez très clairement que si le premier et le dernier résultats sont bien différents, les deux du milieu sont quasi-identiques. Un coup d’œil au titre de ces deux résultats et vous aurez compris qu’il s’agit en réalité de la même piste audio, puisque les titres sont quasi identiques.

Capture d'écran du prototype MusiViz présentant des spectrogrammes identiques
Version MusiViz – Vous constatez aisément la similarité entre les empruntes des deux résultats du milieu

On espère ainsi vous avoir fait économiser un clic inutile (celui d’avoir lancé deux fois une piste similaire). Néanmoins, l’économie du clic – et en réalité la pertinence de votre choix – ne sera complète qu’à partir du moment où vous aurez pu déterminer lequel des deux résultats de recherche est le meilleur. Autrement dit : sur lequel des deux dois-je cliquer ? Pour répondre à cette nouvelle interrogation, il convient de s’attacher au mot « meilleur » dans l’expression « meilleur résultat de recherche ». Qu’est-ce qui définit ici un bon résultat de recherche ?

Résultats de recherche sur Gallica
Les mêmes résultats de recherche sur l’interface actuelle de Gallica

De mon point de vue, un bon résultat de recherche requiert trois caractéristiques :

  • Tout d’abord, il est impératif que le contenu soit celui que vous cherchez. Ici, vous pouvez bien écouter José Greco et sa musique de ballets ;
  • Ensuite, la description du contenu correspond à vos attentes : les données sont suffisantes pour confirmer que le contenu est le bon ou vous apporter de nouvelles informations à son sujet. Sur cet exemple, le résultat daté de 1961 semble contenir des données plus complètes que le résultat de 1960. On trouve par exemple une description ;
  • Enfin, les conditions d’accès au contenu vous permettent de prioriser ou d’opérer des choix après avoir appliquer les filtres précédents.

Ce sont ces conditions d’accès qui m’intéressent ici. En effet, au même titre que vous ne choisissiez pas un livre de 700 pages pour obtenir 5 lignes de description de la vie de Thomas Couture, vous cherchez peut-être (selon le contexte de votre recherche) des pistes sonores avec des caractéristiques précises.

Par exemple, si vous vous lancez dans une recherche exploratoire sur André Breton sur Gallica (en prenant uniquement les documents sonores), il est probable que vous souhaitiez commencer par les pistes les plus courtes (comme ce poème de quelques minutes) avant d’écouter les 40 minutes d’entretien avec André Breton. Car si le contenu (c’est-à-dire le document) est important, la manière dont vous vous l’appropriez ne l’est pas moins. L’ordre de consultation des documents, et donc l’ordre de découverte, est donc un critère essentiel à l’efficacité de votre recherche exploratoire.

Les métadonnées de MusiViz
Les métadonnées mises en avant sur MusiViz

De la même manière, vous serez peut-être exigeant sur la qualité sonore des pistes et souhaiterez éliminer d’office les pistes sur lesquelles le bruit est trop important. Ou bien, vous serez en attente de résultats de recherche particulièrement riches en liens vers d’autres documents. Durant le hackathon de la BNF, c’est ce type d’information que nous avons cherché  à mettre en avant pour les documents sonores de Gallica. Comme le montre l’illustration ci-contre, nous cherchons donc à montrer :

  • Le nombre de documents liés (un point noir plus ou moins gros)
  • La date de la numérisation de la piste (dans l’idéal la date de la piste)
  • La qualité de la piste sonore, son taux de bruit (représenté par la barre de batterie plus ou moins vide à mesure que la qualité baisse)
  • Le nombre de battements par minute de la piste.

Bien sûr, il était difficile de proposer une interface travaillée en 24h (surtout sans graphiste / UI designer dans l’équipe) mais l’idée est là.

Une idée qui a d’ailleurs germé depuis de nombreuses années dans l’esprit des designers des nouveaux services numériques dédiés aux médias, puisque nombreux sont les sites web où vous trouvez aujourd’hui des estimations du temps nécessaire qu’il vous faudra pour lire un document.

En-tête du site Medium
Un exemple sur le site Médium

Le minutier central des Archives nationales

La question de la prise en compte du contexte de la recherche du côté de l’utilisateur est une idée sur laquelle nous nous sommes également penchés avec mon groupe lors du barcamp organisé par les Archives nationales le 9 décembre dernier (organisé dans l’optique d’un hackathon courant 2018).

Le sujet sur lequel mon groupe de travail a travaillé durant cette journée se trouvait être résumable en : la découverte et l’accès au document du Minutier central des notaires de Paris.

Dans le cas du Minutier central, les conditions d’accès aux documents sont d’autant plus importantes que les documents ne sont pas toujours accessibles en ligne (il est possible d’y avoir accès sur place aux archives) voire que leurs données ne sont pas décrites. Dès lors, l’usager des archives est amené à rentrer dans des logiques transcanal complexes pour accéder à son document.

Le Minutier archive les documents reçus des notaires parisiens. Lorsque les cartons qui contiennent les documents arrivent aux archives, ils ne sont pas inventoriés en détail (pour des questions de coût). On dispose ainsi le plus souvent uniquement d’un répertoire des actes du notaire, comme par exemple ici pour le notaire Pierre Claude Melin (cliquez sur la section archives numérisées). Pour trouver l’existence d’un document – par exemple un contrat de mariage entre deux personnes -, il faut donc parcourir le répertoire du notaire dans la période chronologique supposée de l’acte, jusqu’à le trouver (ou pas, si ce n’est pas le bon notaire ou si l’acte n’existe pas). Une fois que l’on sait que l’acte existe, on peut ensuite aller fouiller dans les cartons du notaire en question pour tâcher de le retrouver.

Planche de BD réalisé par l'équipe travaillant sur le Minutier central lors du Barcamp des AN
Planche de BD réalisée par l’équipe travaillant sur le Minutier central lors du Barcamp des AN et décrivant le cas d’usage.

Il va sans dire que ce système (ce workflow comme on dirait aujourd’hui) est tout sauf rapide et efficace. En effet, le cas classique d’une recherche dans les inventaires ne part pas du notaire, mais de son client. Reprenons notre exemple de Thomas Couture cité plus haut. Si je souhaite avoir son contrat de mariage et en partant de l’hypothèse qu’il se soit marié à Paris, je vais donc me rendre au Minutier central pour mettre la main sur le document. Oui mais voilà, la clé d’entrée dans le Minutier n’est pas Thomas Couture, mais son notaire. Pour trouver l’acte, il va donc falloir :

  • Trouver le notaire de Thomas Couture :
    • Je le connais : tant mieux, mais ça n’est pas nécessairement le cas le plus courant ;
    • Je ne le connais pas : arf, il va falloir trouver tous les notaires en exercice à l’époque supposée du mariage dans la zone géographique où habitait et s’est marié Thomas Couture ;
  • À partir de là, vous possédez une liste de 0 à X notaires potentiels. Cette étape se fait principalement aujourd’hui en discutant avec le personnel des archives ou par connaissance préalable. Il existe visiblement peu de ressources à ce sujet (ou alors vous êtes invité à commenter l’article pour me les signaler 🙂 ). Avec cette liste, vous allez pouvoir dépouiller les répertoires de chaque notaire. Cette étape se poursuit jusqu’à ce que vous trouviez trace de l’acte. Cela peut donc prendre du temps, beaucoup de temps. Le facteur déterminant étant la quantité de répertoires à éplucher et leur taille. Et puis il se peut aussi que vous ne trouviez pas l’acte, s’il n’existe pas ou que vous ne cherchez pas chez le bon notaire ;
  • Une fois que vous avez trouvé l’acte (disons que vous êtes chanceux), il ne vous reste plus qu’à vous rendre aux Archives nationales et à demander le carton dans lequel se trouve votre acte pour fouiller dedans jusqu’à le trouver.

Voilà voilà… Si vous vous étiez déjà demandé à quoi servait un cabinet de généalogistes, vous avez maintenant la réponse : ils font ce travail à votre place. On identifie donc un large panel de facteurs rendant la recherche complexe et incertaine :

  • La clé d’entrée est le notaire, et pas non les parties prenantes de l’acte ;
  • Il  n’existe pas nécessairement de listes en ligne des notaires par époque et lieu, il faut aller aux archives ;
  • Toutes les documents ne sont pas nécessairement aux Archives (puisque les documents ne sont versées par les études notariales que 75 ans après la date d’édition de l’acte) ;
  • On sait quand on commence à chercher, mais il est difficile d’évaluer le temps que cela va prendre (compte-tenu de l’incertitude de la recherche) ;
  • Il faut alterner les phases de recherche en ligne et aux archives.

À défaut de pouvoir agir sur le processus en lui-même, il est possible d’agir sur les conditions d’accès au contenu en ligne. En effet, tout au long du parcours de la personne effectuant la recherche, il est possible de définir des métriques afin d’orienter ses choix de recherche ou de lui proposer des outils lui facilitant la vie.

En premier lieu, parmi les outils évoqués par l’équipe du Minutier comme importants, il y a l’idée d’une carte géographique interactive des notaires de Paris. Si parfois la data-visualisation (tiens, un buzzword) tombe un peu dans le gadget et la volonté de faire joli, on comprend bien ici l’intérêt pour un usager du Minutier de disposer d’une carte qui lui indiquerait la liste des notaires dans une zone géographique à une période de temps donnée. La carte servant ici à faciliter le travail de représentation visuelle de la distance relative au logement du sujet de l’étude, ce qui serait un apport conséquent par rapport à une simple liste des notaires à proximité. Signalons au passage que des initiatives existent déjà à ce propos (comme cette liste méthodique des notaires de la Creuse).

Brainstorming de l'équipe Minutier sur l'aspect liste des notaires
Brainstorming de l’équipe Minutier sur l’aspect liste des notaires

Néanmoins, on se rend vite compte que d’autres informations sont utiles à fournir à l’usager – et n’existent pas aujourd’hui. Elles ne concernent aps nécessairement les documents d’archive qui intéressent l’utilisateur, mais le temps qu’il va passer à les trouver (et à les analyser). En effet, comme je l’expliquais auparavant, si votre recherche concerne un notaire peu actif, votre recherche sera courte, alors que si elle concerne une dizaine de notaires sur plusieurs décennies… Bon courage. Savoir que vous allez y passer probablement une après-midi ou alors que ça prendra environ une semaine est une information digne d’intérêt et qui orientera nombre de vos choix de recherche. Il s’agit qui plus est d’une information globalement simple à définir car les Archives sont globalement en mesure de donner le nombre de cartons par notaire et par période pour le Minutier. En déterminant une durée moyenne de consultation d’un carton ou d’un répertoire, que l’on peut pondérer selon l’expérience de l’utilisateur, on obtient aisément une échelle de temps.

Brainstorming de l'équipe Minutier
Brainstorming de l’équipe Minutier

Ainsi, nous proposions lors de ce barcamp d’indiquer lors de la recherche dans la SIV (Salle des Inventaires Virtuelle) non seulement le temps que prendrait une recherche (environ), mais également le niveau de difficulté de pour la lecture de l’écriture des documents. On pourrait également imaginer donner les taux de numérisation d’un fond de notaire, ou les zones chronologiques pour lesquelles les documents ne sont pas disponibles.

Pour conclure

Toutes ces mesures visent in fine à donner un feedback à l’usager. Ce retour d’information concerne non pas les documents mais leur découverte. Cela va ainsi donner un moyen à l’usager de faire des choix : est-ce que je mets tel résultat dans mon panier ? Est-ce que je lis tel document avant tel document ? Est-ce que je raffine ma recherche ?

N’avez-vous ainsi jamais ressenti la frustration de parcourir une longue liste de résultats de recherche sans savoir quand elle s’arrêtera ? Et bien si c’est le cas, vous comprendrez probablement l’utilité d’avoir au début de cette liste une bulle qui vous dirait « Il va vous falloir 2 heures pour parcourir cette liste ».

Peut-être aurez-vous déjà fait le lien, il s’agit bien ici d’enrichir une information qui existe déjà sous la forme du nombre de résultats de recherche, mais qui – compte-tenu de son importance – mérite d’être enrichie et spécialisée en fonction des domaines comme nous avons tâché de le faire avec l’équipe de MusiViz et avec l’équipe du Barcamp. Pour le dire en une phrase, une manière d’améliorer l’expérience utilisateur (oh, un autre buzzword) des interfaces documentaires.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *