Forum OSM France

Sous titrage des vidéos du sotm-fr

j’ai testé scribe pour lancer la conversion en sous-titre de certaines vidéos (https://scribe.cemea.org)

est-ce que @Jocelyn tu peux me donner des droits d’admins pour le compte vinber sur peertube pour que je puisse intervenir et ajouter des sous-titres et tester si cela marche bien stp ?

Pour l’instant, je ne peux intervenir que sur les vidéos que j’ai moi même ajoutées …

Je viens de te passer admin @vinber

1 Like

merci,

je viens d’ajouter la transcription directe faite par scribe. Il y a quelques coquilles cocasses mais dans l’ensemble c’est quand même assez propre.

Ce que je ne sais pas faire et donc j’en appelle à @tykayn ou peut-être @Bristow justement ou toutes autres personnes c’est :
« comment corriger les coquilles pour générer de nouveau un fichier .srt ? »

La transcription par scribe produit 3 fichiers, peut-on en corriger qu’un pour ensuite avoir les 3 formats, qui ont leur intérêt propre j’ai l’impression.

image

Tu n’as pas envoyé uniquement le .srt sur PeerTube ?
Je ne sais pas comment fonctionne Scribe.

En théorie, le fichier .srt est un fichier texte qu’on peut éditer à la main. Ce n’est pas le cas ici ?

Scribe génère trois fichiers, un txt, un .srt et un timed phrase.

Je n’ai envoyé que le srt sur peertube mais quitte à corriger, j’aimerai bien corrigé une fois et généré les 3 fichiers. Cela permet de continuer à avoir la retranscription textuelle juste et effectivement un format .srt modifié.

si je peux modifier que le .srt mais l’idée c’est de continuer à aussi avoir la transcription écrite complète, je trouve que parfois cela peut-être intéressant d’avoir la version écrite, sans les chronologies

voici ce que fournit Scribe Nextcloud OSM-FR

Au pire, on doit pouvoir générer la transcription complète à partir du fichier .srt, en enlevant les balises de temps.

Concernant les sous-titres: c’est effectivement pas mal du tout. Par contre, on a des gros pavés, au lieu d’avoir les phrases découpées sur plusieurs sous-titres. Tu sais si c’est configurable côté scribe ?

aucune idée, je découver scribe et je suis très agréablement surpris par la qualité du texte qui sort.

Le truc magique serait de éditer directement depuis peertube quand tu écoutes la conf et note des erreurs :slight_smile:

Genre : pause, éditer le srt, enregistrer, lecture :slight_smile:

oui c’est aussi ce que je le suis dit ! je vais creuser

Ça serait déjà possible dans peertube: Add simple subtitle edition from video captions tab by lutangar · Pull Request #4666 · Chocobozzz/PeerTube · GitHub, dispo dans la version 4.2.0, mais on n’a que la version 4.0 actuellement.

Mise à jour à prévoir du coup :slight_smile:

3 Likes

sans que cela soit pressé évidemment mais cela serait super. Nous pourrions ensuite imaginer :

  • lancer la transcription des confs du sotm 2022, peut–être en mode adopte un département en adoptant une conf, sa transcription et sa mise au propre
  • pour l’instant en français
  • puis creuser le passage sur des traductions dans d’autres langues dont évidemment l’anglais pour montrer ce que fait la communauté française (peut-être qu’ici DeepL pourrait avoir toute sa place ?)

chouette tout cela !

2 Likes

Pour avoir déjà travaillé sur du sous-titrage franco-allemand de vidéo (cf projet Karto-District), j’ai quelques outils et scripts python dispos (notamment pour la gestion des *.srt). On en discute quand tu veux :slight_smile:

1 Like

En effet c’est fout chouette ce que sort la transcription de Scribe, ça dépend directement de ce qui a été mis pour muscler les transcriptions (les fichiers weight) en plusieurs langues.

Les scripts qui sont derrière Scribe sont une variante de ce dépot de transcription que j’ai réalisé:

On met ses fichiers vidéos ou audio dans le bon dossier, on lance un script pour les convertir en audio qui va bien en masse, puis on lance un autre script du Makefile pour les transcrire. (tout est dans le Readme, et attention, les fichiers de weight ça pèse un ou deux gigas si on les prend en bonne qualité.)

Les fichiers de sortie sont le résultats de quelques filtrages qui enlèvent les balises de temps avec des expressions régulières, le tout est fait de scripts python.

il est possible de lancer la transcription de plusieurs fichiers audios sur sa propre machine. ça bouffe pas mal de ressources de calcul et risque de planter si vous en demandez plusieurs en parallèle, je conseille de faire les transcriptions l’une après l’autre. Ou de trouver des moyens d’optimiser les scripts :wink:

@vinber pour faire ce que tu veux le seul truc que je vois actuellement est de faire un autre script qui prendrait le fichier srt en entrée et sortirait des textes sans indications de temps en sortie avec des recherches de Regexp, je n’ai rien dans mes tiroirs là dessus.

D’ailleurs il existe des transcripteurs encore plus forts capable de distinguer les locuteurs et de les ajouter en tête de ligne, mais je ne les ai pas vus sous licence libre.
Certains fichiers de weight se débrouillent plus ou moins bien selon la qualité de son, le nombre de gens qui parlent, la reconnaissance des hésitations dans les phrases, etc…

Peertube commence à proposer un éditeur vidéo en ligne, ce qui est une sacré prouesse.
Je veux bien filer un coup de main pour les mises à jour de peertube si besoin o/ Mais bon, j’ai du mal a dégager du temps, faut le savoir :smiley:

Un bon moyen de se répartir les transcriptions c’est d’adopter une salle de conf, faire du youtube-dl pour récupérer les vidéos et lancer les scripts de transcript, ou d’utiliser Scribe à plusieurs. Mais je sais pas quelles sont les limites de Scribe. open bar à priori :smiley:

2 Likes

J’ai utilisé un outil en ligne de ce genre : Amara.org. Son code est peut-être disponible ?

C’est indispensable pour découper les trop longues phrases et les resynchroniser

j’ai lancé la transcription de l’ag avec https://scribe.cemea.org/

j’ai mis les sous-titre, et commencé à corriger les 2 premières minutes.

Si quelqu’un veut jouer, dites le on cherchera le niveau nécessaire pour donner les droits d’édition des sous-titres. @Jocelyn

D’ailleurs le responsable informatique des CEMEA (François Audirac) a lancé un appel à l’aide pour donner un peu de sa voix à CommonVoice de Mozilla.
Scribe utilise justement ces voix.

Participez anonymement et librement au projet entre 2 contributions OSM :wink:

Voici le pouet :arrow_heading_down:

1 Like

je vais en faire car je sens que mon accent n’est pas toujours bien reconnu :smiley:

1 Like