PrésentationEvaluationCalendrier  
   
 
LES TÂCHES GénéralPlanLes tâchesLes formatsLes métriquesLes données

Les tâches

Les tâches primaires

 

La campagne d'évaluation est constituée d'un ensemble de tâches :

  • Une tâche primaire dont le but est de répondre simultanément aux questions :

    • Qui parle ?

    • Qui voit-on ?
  • Des tâches élémentaires multimodales (plusieurs sources d'informations disponibles) et monomodales (une seule source d'information disponible) :

    • Qui parle ?

    • Qui voit-on ?
    • Quelles sont les personnes dont le nom est prononcé ?
    • Quelles sont les personnes dont le nom apparaît à l'image ?
  • Des sous-tâches :
    • détection et segmentation des têtes dans les visages,
    • transcription de la parole,
    • diarization audio,
    • détection et segmentation des mots incrustés dans les images,
    • transcription des mots détourés.

Les tâches restreintes

Pour étudier l'impact des différentes sources d'informations, il sera demandé aux participants de répondre aux quatre questions avec pour chacune une restriction sur les sources d'information utilisées. Spécifiquement :

  • T2.1 : répondre à Qui voit-on ? sans prendre en compte ni signal audio ni textes incrustés (i.e. image seule sans OCR).
  • T2.2 : répondre à Qui parle ? sans prendre en compte l'image ni le texte prononcé (i.e. audio seul sans ASR).
  • T2.3 : répondre à De qui parle-t-on ? à partir uniquement du résultat de l'ASR.
  • T2.4 : répondre à De qui le nom apparaît à l'écran ? à partir uniquement du résultat de l'OCR.

Les sous-tâches

Cadre général

Un ensemble de sous-tâches technologiques élémentaires seront évaluées en plus des tâches élémentaires.

Détection et segmentation de visages et textes incrustés

Les tâches de détection sur image demandent, pour chaque image traitée, d'indiquer la présence ou non d'un type d'objet recherché, dans notre cas de visages et/ou de texte incrustés. Les tâches de segmentation demandent en plus la fourniture de polygones englobants.

Suivi de visages et de textes incrustés

Les tâches de suivi sont des extensions des tâches de détection et de segmentation s'appliquant à la vidéo et demandant d'indiquer quand le même visage ou le même texte revient d'une frame sur l'autre.

Transcription de textes incrustés (OCR)

La tâche de transcription des textes incrustés demande au système de fournir en format texte les mots en incrustation au premier plan présents dans l'image.

Détection et suivi de locuteurs (Diarization audio)

La tâche de détection et suivi de locuteurs cherche à décomposer un ensemble d'enregistrements de parole en un ensemble de segments regroupés par locuteurs sans chercher à les nommer. Certains locuteurs peuvent apparaître dans plusieurs enregistrements séparés et devront être regroupés.

Transcription de la parole (ASR)

La tâche de transcription de la parole consiste à transcrire chaque mot prononcé dans chaque émission. Les plages où plusieurs personnes parlent en même temps ne seront pas prises en compte.