PrésentationEvaluationCalendrier  
   
 
LES MÉTRIQUES GénéralPlanLes tâchesLes formatsLes métriquesLes données

Tâches primaires

La métrique d’évaluation choisie est le Estimated Global Error Rate (EGER). Pour chaque image annotée de la référence, la liste des personnes présentes et/ou parlant à l’instant associé est constituée, et ce du point de vue référence et du point de vue système. Ces deux listes sont comparées en associant les personnes une à une, chaque personne ne pouvant être associée au plus qu’une fois. Une association entre deux personnes nommées compte pour un correct, tout comme l’association entre deux anonymes.  L’association entre deux personnes avec des noms différents ou entre un nommé et un anonyme donne une confusion. Chaque personne de l’hypothèse non associée compte pour une fausse alarme, et chaque personne de la référence non associée pour un oubli.  Un coût est associé par confusion, et un par oubli/fausse alarme. De toutes les associations possibles est choisie celle qui donne le coût total (erreur pour l’image) le plus faible. La somme de tous ces comptes d’erreur par image permet d’obtenir le nombre d’erreurs global. Le nombre global d’entrées attendues est lui aussi comptabilisé en cumulant le nombre de personnes présentes dans la référence à chaque image. Le taux d’erreur est alors le nombre d’erreurs global divisé par le nombre global d’entrées attendues.

Cette métrique est identique pour la tâche principale et les deux tâches élémentaires, seul l’établissement des ensembles de personnes change pour tenir compte uniquement des modalités voulues.

Tâches élémentaires (T1.1 T1.2 T1.1n T1.2n)

Les tâches élémentaires correspondant aux questions individuelles seront également évaluées :

  •    T1.1 : qui parle, supervisé
  •   T1.2 : qui voit-on, supervisé
  •   T1.1n : qui parle, non-supervisé
  •  T1.2n : qui voit-on, non-supervisé

La métrique EGER sera appliquée là aussi.

Tâches élémentaires T1.3

La tâche élémentaire T1.3 demande de répondre à la question de qui le nom est prononcé ? La réponse prend là encore la forme d'un ensemble d'intervalles temporels auxquels est associée une identité. Dans cette configuration les identités sont bien entendu toujours nommées.

La métrique associée est le Slot Error Rate (SER). Pour chaque entité nommée de type nom présent dans la transcription de référence de la parole, une procédure dite d’alignement forcé permet d’obtenir l’intervalle temporel de la citation. Les intervalles de l’hypothèse sont alors comparés avec la référence. Un décompte d’erreurs est alors effectué :

  • I : Pour chaque intervalle de l’hypothèse n’ayant aucune intersection avec un intervalle de la référence une erreur d’Insertion est comptée.
  •   D : Pour chaque intervalle de la référence n’ayant aucune intersection avec un intervalle de l’hypothèse une erreur de Délétion est comptée.
  •   T : Pour chaque paire (hypothèse, référence) en intersection pour lesquelles l’identité est différente une erreur de Type est comptée.
  •   F : Pour chaque paire (hypothèse, référence) en intersection pour lesquelles les frontières sont différentes malgré une tolérance fixée une erreur de Frontière est comptée.

Le SER est alors calculé en cumulant les erreurs d’insertion et de délétion avec un poids de 1, les erreurs de type et frontière avec un poids de 0,5. Le tout est divisé par le nombre d’intervalles dans la référence. En notant R le nombre d’intervalles (citations) dans la référence :

 

Tâche élémentaire T1.4

La tâche élémentaire T1.4 demande de répondre à la question de qui le nom apparaît à l’écran ? La réponse prend là encore la forme d'un ensemble d'intervalles temporels est associée une identité. Dans cette configuration, et comme pour les citations orales, les identités sont bien entendu toujours nommées.

Un texte est pris en compte pour l’évaluation si et seulement si il respecte les conditions suivantes :

  •  Présent en incrustation au premier plan.
  •  Ne fait pas partie d’un logo.

La métrique utilisée est l’EGER.

Tâches élémentaires en approche monomodale

Pour étudier l'impact des différentes sources d'informations, il est demandé aux participants de répondre aux quatre questions avec pour chacune une restriction sur les sources d'information utilisées. Spécifiquement :

  •  T2.1: répondre à Qui voit-on ? sans prendre en compte ni signal audio ni textes incrustés (i.e. image seule sans OCR).
  •  T2.2 : répondre à Qui parle ? sans prendre en compte ni l'image ni le texte prononcé (i.e. audio seul sans ASR).
  •  T2.3 : répondre à De qui le nom est prononcé ? à partir uniquement du résultat de leur propre ASR.
  •  T2.4 : répondre à Quels noms apparaissent à l'écran ? à partir uniquement du résultat de leur propre OCR.

Les métriques de l'évaluation multimodale sont reprises à l'identique.