En effet c’est fout chouette ce que sort la transcription de Scribe, ça dépend directement de ce qui a été mis pour muscler les transcriptions (les fichiers weight) en plusieurs langues.
Les scripts qui sont derrière Scribe sont une variante de ce dépot de transcription que j’ai réalisé:
On met ses fichiers vidéos ou audio dans le bon dossier, on lance un script pour les convertir en audio qui va bien en masse, puis on lance un autre script du Makefile pour les transcrire. (tout est dans le Readme, et attention, les fichiers de weight ça pèse un ou deux gigas si on les prend en bonne qualité.)
Les fichiers de sortie sont le résultats de quelques filtrages qui enlèvent les balises de temps avec des expressions régulières, le tout est fait de scripts python.
il est possible de lancer la transcription de plusieurs fichiers audios sur sa propre machine. ça bouffe pas mal de ressources de calcul et risque de planter si vous en demandez plusieurs en parallèle, je conseille de faire les transcriptions l’une après l’autre. Ou de trouver des moyens d’optimiser les scripts 
@vinber pour faire ce que tu veux le seul truc que je vois actuellement est de faire un autre script qui prendrait le fichier srt en entrée et sortirait des textes sans indications de temps en sortie avec des recherches de Regexp, je n’ai rien dans mes tiroirs là dessus.
D’ailleurs il existe des transcripteurs encore plus forts capable de distinguer les locuteurs et de les ajouter en tête de ligne, mais je ne les ai pas vus sous licence libre.
Certains fichiers de weight se débrouillent plus ou moins bien selon la qualité de son, le nombre de gens qui parlent, la reconnaissance des hésitations dans les phrases, etc…
Peertube commence à proposer un éditeur vidéo en ligne, ce qui est une sacré prouesse.
Je veux bien filer un coup de main pour les mises à jour de peertube si besoin o/ Mais bon, j’ai du mal a dégager du temps, faut le savoir 
Un bon moyen de se répartir les transcriptions c’est d’adopter une salle de conf, faire du youtube-dl pour récupérer les vidéos et lancer les scripts de transcript, ou d’utiliser Scribe à plusieurs. Mais je sais pas quelles sont les limites de Scribe. open bar à priori 