Bnf rencontres numériques

Questionnaire BnF-Partenariats: Le questionnaire disponible ici: Laisser un commentaire Cliquez ici pour annuler la réponse. Articles relatifs. Retour sur l'atelier Disco-Maker: Vous trouverez ci-dessous, le travail réalisé par Marion Therier, étudiante. Par Nicolas Clément Chargé de projets de coopération métropolitaine dans. Parallèlement à la distinction des zones textuelles des zones iconographiques, un prototype de topic modeling supervisé, couvrant dix-neuf formes journalistiques, a été développé pour repérer les formes courantes entre et Ce modèle permet donc de classifier les articles mais aussi les illustrations associées et de constituer des sous-corpus thématiques à partir de la classification opérée.

Néanmoins, dans un corpus aussi spécifique le sport dans la presse quotidienne , les catégories prennent sens les unes par rapport aux autres. Taille moyenne des illustrations La première phase du projet consistait à nettoyer les données via les métadonnées pour sélectionner les publicités contenant des éléments iconographiques. La deuxième phase consistait à utiliser des réseaux neuronaux pour identifier les éléments iconographiques dans les images. Les images ont donc été classifiées selon leurs caractéristiques visuelles en utilisant la bibliothèque open source pour TensorFlow qui permet de calculer les regroupements visuels clustering.

Une recherche des plus proches voisins permet ensuite de naviguer dans cet espace de représentation.

Musée-Oh !

Ce corpus volumes, 70k pages, français, latin, allemand est conservé aux Archives nationales et à la BnF. Un prototype de recherche et de consultation a été réalisé. Le modèle apprend donc sur un corpus dont la langue a été modernisée et dont les abréviations ont été mises au long.

L'agenda de la BnF

Visualiseur IIIF. Il ouvre les moyens de créer de nouveaux savoirs dans un environnement ouvert. Deux compétitions ont eu lieu: En , deux tâches étaient en revanche visées: En , le meilleur système pour la reconnaissance globale sous forme de matrice de confusion, à gauche dans la figure suivante met en évidence la capacité de la machine à reconnaître la plupart des classes.

La robustesse des systèmes est aussi un enjeu majeur. Le graphe suivant montre par exemple un système bleu foncé offrant de bonnes performances globales mais étant mis en échec sur la classe La moitié des systèmes étaient basés sur des CNN et des architectures profondes, les autres sur des caractéristiques plus ou moins nombreuses. Les architectures profondes ont donné les meilleurs résultats. Pour ces tâches de classification, des approches interactives sont également envisageables.

Plusieurs modèles de réseau sont testés sur cette base.


  • Archives par mot-clé : Humanités numériques;
  • Humanités numériques | Carnet de la recherche à la Bibliothèque nationale de France?
  • Questionnaire BnF-Partenariats : « Les offres numériques en ligne à destination des bibliothèques ».
  • Agenda (page 1 sur 7) | BnF - Site institutionnel.
  • rencontrer des hommes belges.
  • femme rencontre gratuit maroc;

Comme la donnée est le pilier de tout système, une attention méticuleuse devrait lui être portée pour éviter des distorsions à long terme. Dans le cadre de ses plans triennal de la recherche et quadriennal de la recherche , la Bibliothèque nationale de France finance un programme sur les Polices de caractères pour les inscriptions monétaires qui vise à créer des polices de caractères pour transcrire, publier et analyser de façon satisfaisante et uniformisée les inscriptions monétaires.

Le travail se poursuit avec les inscriptions de monnaies ibériques et puniques. Ces coins étant confectionnés à la main, chacun est par définition unique. La fiche Les liaisons de coins et le graphique que nous citons ci-dessous consacrés au sujet par Christian R. Les logiciels de représentation en réseaux pourraient constituer un outil pertinent pour parvenir à ce type de représentation de manière automatisée.

Extrait de: Les bibliothèques regorgent de données numériques et elles en produisent quotidiennement de nouvelles: Mais ces données et métadonnées numériques ressortent-elles du concept de big data? Et sont-elles des cibles légitimes pour du data mining? Le traitement OLR consiste en la description de la structure logique de chaque fascicule et de ses articles emprise spatiale, titre et sous-titre, etc. Figure 1. Notre hypothèse est que compter ces grains fig. Figure 2. Des scripts Perl ou XSL fig. Figure 3.

Biblioblog

Processus de production des métadonnées dérivées. Ce principe de production de données dérivées offre plusieurs avantages. En tout premier lieu, pour le consommateur des données:. Le jeu de métadonnées pourrait alors être un échantillon représentatif de la collection ou du corpus, les informations recherchées étant majoritairement des mesures statistiques. Citons quelques exemples:. Figure 4. Nombre moyen de mots par page. Figure 6.

Sommet du livre à la BnF – "Traduire et publier de la littérature étrangère en France" 2/2

La communauté des humanités numériques applique des techniques de visualisation de données depuis déjà fort longtemps 2. Figure 7. Ainsi la courbe singulière décrivant la une du supplément du dimanche du Petit Journal fig. Figure 8. Figure 9. Les facteurs de forme de la presse quotidienne ont varié au fil des siècles. Cette typologie et son évolution entre XIX e et XX e siècles est illustrée avec un graphe à bulles fig.

Figure Typologie des six titres de presse du corpus Légendes: XIXe s. XXe s. Le Petit Journal supp. Le Journal des débats politiques et littéraires ; OE: Ouest-Eclair éd. Le Gaulois ; PP: Le Petit Parisien ; M: Le Matin. Répartition des contenus par type Le Matin, De telles métadonnées quantitatives, ordonnées selon des dimensions à la fois temporelle et éditoriale les titres de presse et éventuellement croisées avec les contenus eux-mêmes les textes océrisés , constitue un terrain fertile en hypothèses de recherche. Nombre de tableaux par jour de semaine , Le Journal des débats politiques et littéraires Pierre-Carl Langlais, La visualisation de données offre également des perspectives novatrices en matière de redécouverte et de réappropriation des documents décrits par ces données.

La figure suivante montre ainsi une visualisation interactive de la moyenne de mots par page du Journal des débats politiques et littéraires sur toute sa durée , plusieurs dizaines de milliers de numéros, un point par numéro.


  • Bnf Rencontres Numeriques Rencontre Pei.
  • rencontre adulter gratuit.
  • Dans la même collection!
  • rencontre drone!

Cette dimension est exprimée par une métaphore visuelle à laquelle est associée une seconde dimension, le temps, à travers lequel le promeneur numérique se déplace avec une fonctionnalité de zoom. Nombre moyen de mots par page Journal des débats politiques et littéraires, Les valeurs aberrantes peuvent aussi révéler des trésors documentaires, ainsi des cas de censure telle que pratiquée durant la Grande guerre voir ainsi le 22 mai Et les données racontent plusieurs histoires pour paraphraser Edward Tufte [12] , la Grande, celle de la presse imprimée, celle du Journal des débats.

Dans le premier cas, on pourra citer blog, dossier pédagogique, frise chronologique fig. Frise chronologique du Journal des débats politiques et littéraires. Il serait tentant de rattacher ce cas illustratif aux tensions entre micro-histoire et histoire quantitative. Opposition artificielle dans le cadre de la mission de médiation qui échoit aux musées et bibliothèques: Evolution des formats de papier Journal des débats politiques et littéraires, Des centaines de pages sont ainsi extraites du corpus fig.

Exemples de résultat: Les documents imprimés constitutifs des bibliothèques patrimoniales numériques ne sont pas des textes anonymes et indifférenciés. Prendre en compte leur matérialité afin de favoriser les usages numériques qui en sont faits est une hypothèse légitime. En particulier dans le cas de la presse ancienne numérisée, du fait de sa profusion 8 et de sa nature composite: La bibliothèque numérique Trove http: Un démonstrateur basé sur le jeu de métadonnées augmenté du texte des légendes a été développé.

Et que dire des monographies imprimées? Leur OCR contient bien évidemment des informations quantitatives quant à leur contenu: Recherche iconographique dans les imprimés exemples de résultats: La qualité des données dérivées influence la validité des analyses et interprétations notamment visuelles, voir [4],[17] sur cette problématique. En effet, des données irrégulières en nature ou discontinues dans le temps pourraient introduire des biais. Une étude qualitative doit donc impérativement être menée au préalable à toute analyse interprétative.

Et dans tous les cas, les informations de qualité relatives aux collections ou au corpus numériques taux OCR, manques, niveau de structuration, etc. Une utilisation ultérieure fiable de ces collections et corpus repose en partie sur ce prérequis. La presse quotidienne des XIX e et XX e siècles se caractérise par une bonne homogénéité de forme, ce qui induit une cohérence et une granularité constantes des métadonnées dérivées du corpus fascicule, page, article, etc.

Par ailleurs, la démarche employée fouille de données massive, le fondement de toute approche big data [18] rassure quant à sa représentativité. Une analyse statistique peut également aider à fournir les informations nécessaires de couverture temporelle et de distribution des données fig. On constate par exemple que la période est sous-représentée par un seul titre, le JDPL. Par contre, la visualisation simultanée du nombre de titres périodiques 10 actifs année par année information extraite du catalogue général de la BnF, courbe bleu montre que la distribution du corpus est relativement bien corrélée à la production éditoriale.

Répartition des données du corpus en rouge et des titres de périodique actifs en bleu — Ainsi une visualisation en calendrier des données disponibles pour un titre de presse fig. Nombre moyen de tableaux par fascicule. Par ailleurs, le mode opératoire rend cette expérimentation généralisable, à plusieurs titres:. Nous pensons que cette étude a mis en évidence le bénéfice pour les bibliothèques numériques à utiliser les méthodes et outils du champ des humanités numériques. Et fournir ainsi de meilleurs services à tous leurs utilisateurs, y compris ceux de la communauté des humanités numériques, en mettant à leur disposition des corpus numériques plus riches et mieux structurés.

Les scripts, les jeux de données dérivées et les graphes décrits dans cet article sont librement disponibles: Jean-Philippe Moreux, "Approches innovantes pour la presse ancienne numérisée: More Posts - Website. Exemple de transcription Le passage des archives papier au numérique implique pour les chercheurs une nouvelle manière de les appréhender.

Participez aux rencontres numériques à la BNF les 21 et 22 octobre !

Réutiliser les données existantes Ce corpus de fiches de lecture présente un statut hybride: Eleonora Moiraghi More Posts. Programme du hackathon Samedi 24 novembre 13h — Accueil des hackathoniens 14h — Ouverture du Hackathon BnF 19h — Présentation des projets en cours du hackathon BnF Dimanche 25 novembre 15h: Cocktail de clôture Ateliers tous publics De 15h à 18h samedi et dimanche — Hall est Durant le Hackathon, des activités gratuites autour du numérique sont proposées à tous les publics, de 15h à 18h, le samedi et le dimanche dans les espaces du haut-de-jardin de la BnF: Modalités pratiques Quand?


  • Des tweets et des likes en bibliothèque?
  • site de rencontre vietnamien gratuit.
  • Des tweets et des likes en bibliothèque?
  • Suivez-nous...!
  • Rencontre avec Matthieu Bonicel – L’innovation à la BnF | Le Recueil Factice.
  • la rencontre avec lautre lamour lamitié document?
  • Bnf rencontres numériques - Lba.

Précurseur des humanités numériques? Conversion rétrospective Revenons en arrière pour évoquer cette entreprise de conversion rétrospective, entamée en et encore en cours en Histoire sérielle du livre Le premier article publié par E. Examen […] des courants profonds ou tendances passagères […. Classification par genres littéraires de la production éditoriale ; histoire quantitative ou évolution statistique de ces différents genres. Évolution du nombre de pages et de la dimension des formats. Productivité des auteurs ; éditions successives, qui donnent quelques indices sur la réception des livres.

Ainsi, cette zone est réservée: Ainsi, pour cette analyse lexicographique et statistique, il avait envisagé: Regroupements et alignements de données internes à la BnF. Des outils, des données et des humains. Enhancing Link Keys: Extraction and Reasoning. Figure 11 Modèle de données simplifié Les avancements du projet sont reportés sur le carnet de recherche du projet.

The Linked Open Data Cloud Argument Une des promesses de la publication de données en ligne ouvertes est la possibilité de tisser des liens entre jeux de données de nature différente pour en enrichir les réutilisations. Pour aller plus loin Un carnet de recherche: Légendage automatique Concernant les outils existants ou en développement et les acteurs, trois types peuvent être distinguées: Pour la collection Images, les métadonnées bibliographiques sont souvent lacunaires, sans vocabulaire normalisé, et pas pensées pour cet usage.

Ainsi la recherche de visuels sur les destructions urbaines consécutives à la bataille de Verdun: Elle ouvre de nouvelles perspectives, avec par exemple la création de jeux de données iconographiques pour la recherche cartes, publicités, sports, etc. Cependant, des défis et questionnements se font jour: Verrous scientifiques: Le prototype Gallica Images. Reconnaissance automatisées des images de presse. Les images publicitaires comme sources historiques. Enjeu Les logiciels de représentation en réseaux pourraient constituer un outil pertinent pour parvenir à ce type de représentation de manière automatisée.

Quelles données? Créer de nouvelles données A. Processus de production des métadonnées dérivées Ce principe de production de données dérivées offre plusieurs avantages.

En ce moment | BnF - Site institutionnel

En tout premier lieu, pour le consommateur des données: Faire parler les données A. Analyse statistique: Citons quelques exemples: Nombre moyen de mots par page Programmes de numérisation et valorisation: Cette dimension varie fortement en fonction des périodes et des titres de presse fig. Visualisation de données: Répartition des contenus par type Le Matin, De telles métadonnées quantitatives, ordonnées selon des dimensions à la fois temporelle et éditoriale les titres de presse et éventuellement croisées avec les contenus eux-mêmes les textes océrisés , constitue un terrain fertile en hypothèses de recherche.

Nombre de tableaux par jour de semaine , Le Journal des débats politiques et littéraires Pierre-Carl Langlais, C. Valoriser les métadonnées quantitatives Les documents imprimés constitutifs des bibliothèques patrimoniales numériques ne sont pas des textes anonymes et indifférenciés. Pour la presse spécialisée scientifique, professionnelle, sports, loisirs, etc. Contrôler la qualité des données La qualité des données dérivées influence la validité des analyses et interprétations notamment visuelles, voir [4],[17] sur cette problématique.

Par ailleurs, le mode opératoire rend cette expérimentation généralisable, à plusieurs titres: Le traitement OLR est désormais un standard en matière de numérisation des collections de presse patrimoniales.



admin