Organisée par Adam Mestyan (Duke University) et Mercedes Volait (InVisu),

avec le soutien de Frédéric Abecassis et d’Amr Bahgat (IFAO)

 

Mardi 2 juin 2020, 15h à 18h, sur YouTubeIFAO

 

L’interopérabilité des données de la recherche : textes, images, bases de données

 

La journée se tiendra sous la forme d’un webinaire en ligne ouvert à la participation, si vous souhaitez interagir avec les intervenants (sur inscription à travers ce formulaire), ainsi qu’à tout public qui souhaite y assister par une diffusion en direct sur la Chaine Youtube de l’Ifao.

 

Pour sa journée d’étude annuelle, l’équipe de « La fabrique du Caire moderne » souhaite faire le point sur un certain nombre d’enjeux de méthode liées à l’exploitation de bases de données intégrant textes, images et données de géolocalisation. La perspective d’une « science ouverte » ne saurait se contenter de mettre en ligne les données de la recherche. Encore faut-il s’interroger sur la pérennité de ces données, leur capacité à rendre compte des objets dont elles se saisissent, à communiquer et à se compléter entre elles. En prenant pour exemple des corpus d’images, d’objets archéologiques ou des corpus de presse, les communications présentées au cours de ce webinaire entendent confronter des expériences et s’interroger sur les manières de construire une réelle interopérabilité des données.

 

Les communications :

Hélène Bégnis, Persée et Julie Erismann, InVisu, Apports de la cartographie à l’exploitation d’un corpus iconographique sur la ville du Caire. Début de l’intervention dans la vidéo : 0:19:50

 

Laurent Coulon, IFAO / EPHE, PSL, Nicolas Souchon (EPHE, PSL), Le corpus numérique de la Cachette de Karnak, la gestion des images et les problématiques de l’interopérabilité. Début de l’intervention dans la vidéo : 1:01:21

 

Hala Bayoumi, CEDEJ : Mise en place d’un système en ligne de recherche documentaire à partir des archives de presse du CEDEJ – Bilan et défis. Début de l’intervention dans la vidéo : 1:49:50

 

Hugh Cayless, Nour Kanaan, Adam Mestyan, Duke University : Building an XML-Database of Urban News: al-Waqa’i’ al-Misriyya, 1828-1914 – A Sub-Project of La fabrique du Caire moderne. Début de l’intervention dans la vidéo : 2:21:45

 

Till Grallert, Orient-Institut Beirut : Open Arabic Periodical Editions: a framework for bootstrapped scholarly editions outside the Global North. Début de l’intervention dans la vidéo : 2:36:46

Annexes :

L’équipe XML-Database Urban News :

Hugh Cayless (Duke U), Sarah Fathallah (‘Ayn Shams U), Nour Kanaan (Duke U), Adam Mestyan (Duke U), Karima Nasr (‘Ayn Shams U), Rezk Nuri (Markaz li-l-Tarikh al-Mu’asir), Mercedes Volait (InVisu)

 

 

 

Résumé de Julie Erismann et Hélène Bégnis :

La spatialisation, les enjeux autour de la visualisation des données (patrimoniales et scientifiques) sont de plus en plus présents dans les projets de recherche. Nous avons souhaité avec le projet CAIRMOD connecter différentes sources de données à un système d’information géographique (SIG) afin de pouvoir contextualiser des données iconographiques provenant d’un corpus de cinq albums photographiques qui illustrent, entre autres, l’architecture du Caire de la fin du XIXe au milieu du XXe siècle. Dans un souci constant d’interopérabilité, les outils sont Opensource et nous testerons bientôt la reproductibilité de ces développements afin de faire partager notre expérience à la communauté de chercheurs.

 

 

Résumé de Till Grallert :

The paper will confront hyperbolic promises of mass digitisation and computational methods for the exploration of digitised cultural heritage as a hegemonic episteme rooted in 20th-century, english-speaking, neoliberal capitalism from the margins. That is, the study of the periodical press of the Ottoman Eastern Mediterranean—a historical multilingual society whose material heritage continues to be looted, destroyed and neglected; a society, whose material heritage resists digitisation efforts by being dependent on non-Latin scripts and, for instance, non-Gregorian calendars; a society, whose contemporary heirs cannot draw on the vast resources in wealth and socio-technical infrastructures of the Global North. The hegemonic technical paradigm, I argue, contributes to a neo-colonial divide between the abundance of digitised cultural artefacts of the Global North and the invisibility of almost anything beyond. This necessitates substantial corpus building efforts under the affordances of the Middle East as centered around generosity and minimal computing.

I will critically evaluate our project Open Arabic Periodical Editions (OpenArabicPE) as a framework for open, collaborative, and scholarly digital editions of early Arabic periodicals that addresses the severe impact of the lack of funding on every aspect of the process, unreliable internet connections, and the absence/inaccessibility of functional OCR for Arabic script. OpenArabicPE is run by volunteers and currently hosts six editions with almost 800 journal issues and more than 9 million words. It was developed against the backdrop of two editions of periodicals from early twentieth-century Damascus: Muḥammad Kurd ʿAlī’s Majallat al-Muqtabas and ʿAbd al-Qādir al-Iskandarānī’s al-Ḥaqāʾiq.

The guiding principles for every part of the tool chain and workflow can be summarised as accessibilitysimplicitysustainability and credibility. I argue that through re-purposing well-established open software and by bridging the gap between popular, but non-academic online libraries of volunteers and academic scanning efforts as well as editorial expertise, one can produce scholarly editions that offer remedies for many of the problems outlined above.

We transform digital texts of unknown provenance and quality from the grey online repository al-Maktaba al-Shāmila into TEI XML, add light structural mark-up for articles, sections, authors, and bibliographic metadata, and link each page break in the digital text to digital facsimiles provided through various large-scale scanning efforts. The latter step is the most important—and also most labour intensive—since the credibility of our editing work hinges on presenting all users with a parallel view of facsimiles and the digital text. This view is implemented as a heavily modified TEI Boilerplate, which directly renders the XML files locally in a web browser using a set of XSLT 1 transformations. While we host all our editions online through GitHub Pages, this approach does not rely on volatile internet connections and allows for sharing and re-distribution outside networked computing.

All tools and the editions are hosted on GitHub with open licenses (MIT, CC BY-SA 4.0) for reading, contribution, and re-use. Improvements can be crowd-sourced with clear attribution of authorship and version control using .git and GitHub’s core functionality. Everything is archived on Zenodo with stable identifiers (DOI). Finally, we make bibliographic data on the article level accessible through a public Zotero group, which provides the urgently needed search functionality beyond the individual periodical issue.