À propos

Qu’est-ce que NewsEye ?

Financé par le programme de recherche et d’innovation Horizon 2020 de l’Union européenne, NewsEye est un projet de recherche visant à faire progresser les connaissances actuelles et à introduire de nouveaux concepts, méthodes et outils pour les humanités numériques en offrant un meilleur accès à la presse ancienne à un large éventail d’utilisateurs. Grâce aux outils et méthodes créés par NewsEye, différents groupes d’utilisateurs seront en mesure d’étudier les points de vue et les évolutions historiques. Par conséquent, le projet modifiera la manière dont les données du patrimoine numérique européen sont consultées, utilisées et analysées.

 

Pourquoi NewsEye se consacre-t-il à la presse ?

Les journaux recueillent des informations sur les événements culturels, politiques et sociaux d’une manière plus détaillée que toute autre archive publique. Depuis leur apparition au XVIIe siècle, ils enregistrent des quantités phénoménales d’événements, d’histoires et de noms, dans presque toutes les langues, dans tous les pays et quasi-quotidiennement. Les journaux constituent depuis toujours un moyen incontournable pour diffuser les opinions publiques et politiques, les œuvres littéraires, les essais et l’art : une richesse thématique qui les rend incontournables pour quiconque s’intéresse au patrimoine culturel européen.

Les dernières décennies ont vu la numérisation et la mise à disposition en ligne de dizaines de millions de pages de journaux émanant des bibliothèques européennes, alors même que les bibliothèques nationales intensifient leurs efforts de numérisation pour les années à venir du fait de la forte demande pour accéder à la presse ancienne. Si cette ressource culturelle et historique suscite un intérêt général auprès du grand public, elle revêt une importance capitale pour de nombreux chercheurs en sciences humaines.

 

Qui compose l’équipe du projet NewsEye ?

Le projet NewsEye mobilise des bibliothèques nationales, des équipes de recherche en sciences humaines et sociales et en informatique (voir la page de présentation de notre consortium pour de plus amples informations !). Ce consortium s’attache à relever un certain nombre de défis, à même d’engendrer des progrès scientifiques considérables suivant plusieurs axes :

  • la reconnaissance de texte, l’analyse textuelle, le traitement en langage naturel, l’approche computationnelle et la génération en langage naturel, pour ce qui est de la presse ancienne, mais également de manière plus large,
  • la recherche dans la presse numérique, par la résolution d’un certain nombre de problématiques éditoriales comme la reconnaissance optique des caractères (OCR) et la segmentation des articles ;
  • les humanités numériques, s’agissant de l’énorme quantité de textes, de la mise à disposition d’outils utiles et des possibilités de recherche et de navigation ;
  • l’histoire, en termes d’analyse du patrimoine historique par le biais de nouvelles méthodes au sein de divers corpus linguistiques.

 

Quels sont les objectifs du projet ?

Le projet NewsEye a pour objectif principal l’élaboration de méthodes et d’outils en vue d’explorer et d’exploiter efficacement la vaste ressource qu’est la presse au moyen de technologies innovantes et d’approches « big data », associant les méthodes de « lecture à distance » et de « lecture rapprochée » propres aux humanités numériques.

Cela améliorera les modes d’étude du patrimoine culturel européen dont disposent les chercheurs et les experts, ainsi que le grand public qui s’y intéressent.

NewsEye va donc mettre au point une panoplie d’outils et de méthodes parfaitement intégrée, dans le but d’accroître la capacité des utilisateurs à accéder, analyser et exploiter les contenus des bibliothèques numériques de presse ancienne.

Les outils :

  1. la reconnaissance de texte et la segmentation des articles, qui enrichissent les données de presse numérisée d’informations de segmentation et de classification des articles, ainsi que d’informations textuelles supplémentaires, et enfin de versions en plein texte au niveau de l’article ;

  2. l’enrichissement sémantique du texte, qui génère des annotations sémantiques visant à faciliter l’accès aux collections de presse et à en permettre une analyse systématique et approfondie ;

  3. l’analyse de texte dynamique, qui permet de concevoir des méthodes pour identifier automatiquement des thèmes, des tendances, des points de vue et des exceptions dans le corpus étudié, aussi bien dans un contexte précis que dans le cadre de la comparaison de contextes différenciés ;

  4. l’assistant personnel de recherche, collaborateur intelligent de l’utilisateur qui s’appuie sur les textes enrichis et les outils d’analyse de texte dynamique pour mener une série d’étapes d’analyse avant d’en expliquer les résultats à l’utilisateur. L’assistant récupérera le contenu d’une requête dynamique en vue d’un premier rapport, qu’il soumettra à l’utilisateur en langage naturel. Par la suite, soit l’assistant poursuivra les recherches de manière autonome, soit les utilisateurs pourront sélectionner des points de vue, des articles et des mots-clés afin d’affiner la requête ciblée, de façon interactive.