PrésentationEvaluationCalendrier  
   
 
LES FORMATS GénéralPlanLes tâchesLes formatsLes métriquesLes données

Formats d'entrée

Le format vidéo d’entrée de référence sera le MPEG2 capturé de la TNT. Il comprendra à minima une piste image et une piste audio. Un fichier d’indexation au format texte en colonnes sera fournir avec chaque fichier vidéo et comprendra :

  • Numéro d’image.
  • Type d’image (I, P ou B) pour permettre de vérifier la synchronisation.
  • Position en octets de l’image compressée depuis le début du fichier (start code 0x00000100)
  • Position temporelle de l’image en secondes (précision de 0.001s) depuis le début du fichier pour synchronisation avec l’audio.  Attention, cette valeur peut être négative en début de fichier.

Pour la deuxième partie de l’évaluation (détection de têtes et de textes), une liste de numéros d’images et des fichiers PNG associés seront fournis.

Pour la troisième partie de l’évaluation (OCR), une liste de triplets (numéro de rectangle, numéro d’image, coordonnées du rectangle) sera fournie.

Formats de sortie attendus des systèmes (Tâches principales et élémentaires)

Pour ces tâches un format commun simple est utilisé. Il s'agit d'un format texte colonne comprenant :

1.      Nom du fichier vidéo

2.      Début de l'intervalle temporel

3.      Durée de l'intervalle temporel

4.      Type d’évènement : speaker, head, spoken ou written.

a.      Speaker la personne parle

b.      Head la personne est présente à l’image

c.      Spoken le nom de la personne est cité oralement

d.      Written le nom de la personne est écrit à l’écran

5.      Nom de la personne, avec des underscores remplaçant les espaces

6.      Optionnellement, niveau de confiance (valeur entre 0 et 1)

Les shows et types d’évènements seront regroupés en un seul fichier autant que possible. Plus précisément, il sera attendu un fichier pour :

1.      T1 - T1.1  et T1.2 seront extraits à partir de là.

2.      T1n - T1.1n  et T1.2n seront extraits à partir de là.

3.      T1.3

4.      T1.4

5.      T2.1

6.      T2.2

7.      T2.3

8.      T2.4

Un extrait de fichier pour les tâches principales ressemble ainsi à ceci :

BFMTV_BFMStory_2011-05-11_175900

1250.33

3.12

head

Nicolas_Sarkozy

0.78

BFMTV_BFMStory_2011-05-11_175900

1250.58

2.1

speaker

Nicolas_Sarkozy

0.92

BFMTV_BFMStory_2011-05-11_175900

1253.55

10.26

head

#3

0.65

BFMTV_BFMStory_2011-05-11_175900

1253.70

9.5

speaker

#3

0.80

Formats de sortie attendus des systèmes (Détection et segmentation des têtes et textes incrustés)

Une image bitmap, au format pgm (format non comprimé, à raison d’une valeur par pixel), définit l’emplacement des visages dans l’image vidéo correspondante. Un pixel d’intensité 0 désigne un point n’appartenant pas à un visage. Tous les pixels appartenant à un même visage ont la même intensité. Les pixels de deux visages différents ont des intensités différentes. Les intensités sont des numéros d’ordre. Les pixels du premier visage ont l’intensité 1, ceux du second visage ont l’intensité 2, etc.

Le même procédé est appliqué pour les zones de texte.

Le titre du fichier de chaque image permettra d’identifier la vidéo et le numéro d’image concernée.

Formats de sortie attendus des systèmes (Suivi des têtes et des textes)

Le format demandé reste à préciser en fonction du choix final de sous-tâche, en particulier de la prise en compte ou non des positions de la tête ou du texte.

Formats de sortie attendus des systèmes (Transcription des textes incrustés)

On utilisera là aussi un format texte colonne comprenant :

1.      Nom du fichier vidéo

2.      Numéro de trame

3.      Numéro de rectangle encadrant

4.      Texte reconnu

Le texte reconnu pourra comprendre des espaces et des fins de ligne.  Les espaces seront conservés tels quels, les fins de ligne seront encodées par l’habituel ‘\n’.

Formats de sortie attendus des systèmes (Diarization audio)

Le format attendu est le format standard MDTM, avec la totalité des segmentations en un seul fichier.

Formats de sortie attendus des systèmes (Transcription de la parole)

Le format attendu est le format standard CTM, avec la totalité des transcriptions en un seul fichier. L'encodage doit être UTF-8.