Informations sur le projet ANR PiXL
Participants au projet
Bres Stéphane - LIRIS
Eglin Véronique - LIRIS
Description détaillée du projet
PiXL a été porté au départ par ValCoNum.
C'est un partenariat public-privé rassemblant de très grands entreprises, des PME et des laboratoires
de recherche qui visent à produire ensemble de l’innovation pour développer le marché de la dématérialisation
et favoriser la compétitivité française autour de l’exploitation des contenus numériques. Les partenaires se
sont rassemblés au sein d’une association de préfiguration afin de concevoir de manière expérimentale un modèle
de fonctionnement et d’organisation et de travailler ensemble à la constitution d’une structure pérenne.
PiXL est un projet collaboratif pouvant servir de nombreux acteurs publics ou privés. Pour cet appel à projets,
les partenaires se sont associés au département des Cartes et Plans de la BnF avec pour objectif de travailler
sur des problématiques récurrentes présentes sur tout type de corpus (lecture automatique d’écriture manuscrite,
traitement des images, segmentation et indexation…) et d’expérimenter des solutions pour lever des verrous
technologiques spécifiques aux corpus cartographiques (acquisition haute résolution et assemblage d’images,
géo-référencement,…). Cette collaboration permet donc via des innovations techniques (matérielles et logicielles),
d’ouvrir et de permettre le traitement (dématérialisation et diffusion multimédia) de fonds documentaires
jusqu’alors inaccessibles (absence d’industrialisation, budget, ROI).
Dans le cadre de documents riches et complexes sur un plan informationnel, tels que les cartes ou les plans
par exemple, les systèmes industriels sont également en grande difficulté pour absorber toute la variabilité
de représentation de l’information, en termes de texture et de couleur. L’analyse automatisée de ces informations
riches sur un plan sémantique joue un rôle fondamental pour la lecture automatique des documents, car
elle conditionne la qualité de la segmentation des différentes couches d’informations présentes sur
le document: par exemple, segmentation des informations textuelles des informations graphiques ; au sein des
informations graphiques, segmentation des informations de surfaces (végétation, culture, …) par rapport aux
informations linéaires (réseaux routiers par exemple) ou encore par rapport aux symboles.
L’altération des couleurs due à la dégradation des pigments (cas de documents anciens) peut également
gêner les processus de segmentation. La qualité de l’analyse colorimétrique conditionne donc toute la
chaine de traitement ultérieure, et joue un rôle central pour la lecture du document.
Les innovations développées portent sur les problématiques de modélisation colorimétriques des documents, de
correction colorimétrique, en travaillant dans des espaces vectoriels couleur adaptés, et intégrant éventuellement
des paramètres de texture. Elles sont initialement testées sur des documents couleurs administratifs (voir les
trois premières figures). Ces travaux visent à mettre en place des outils technologiques permettant
de détecter des informations générales modélisables, tout en conservant l’aptitude à détecter localement des
informations de « rupture » (sur-couche informationnelle locale), figure 4.
Figure 1. Exemple de document analysé dans le projet PiXL.
Figure 2. Exemple de document analysé dans le projet PiXL.
Figure 3. Exemple de document analysé dans le projet PiXL.
Réalisations
Outil de segmentation en couches couleurs
Dans le cadre de ce projet PiXL, nous proposons un outil de segmentation en couches couleur. Dans l'hypothèse que la couleur peut être reliée à une information sémantique, cette segmentation permet de localiser des informations particulières. On peut citer par exemple les écritures surlignées en jaunes, ou les tampons de couleur rouge ou bleu par exemple.
Figure 4. Copie d'écran du logiciel de segmentation en couches couleur. Il permet de visualiser les différentes zones de couleur uniforme ou uniformisée et de leur affecter une dénomination sémantique.