Sous Écoute, c’est le premier phénomène du podcast québécois. Avec des millions d’écoutes et de visionnements depuis ses débuts en 2015, des centaines d’invités ont gravi les tabourets du Bordel Comédie Club afin d’enregistrer cet — hilarant — podcast devant public. Que vous soyez fan ou non du standup de Mike, son podcast a été l’un des premiers à donner une vitrine aux humoristes de la relève, avec une formule longue et pratiquement sans publicité. C’est un incontournable.
Depuis quelques temps déjà, Youtube offre une transcription automatisée de vidéos francophones, permettant de suivre une vidéo ou un podcast avec des sous-titres. Force est de constater que la fonctionnalité n’est pas au point pour l’accent Québécois, particulièrement à la vitesse des dialogues pour une majorité des épisodes. Le Québec étant connu pour ses sacres et son emploi saugrenu de la vulgarité, il m’est donc venu l’idée d’analyser la transcription des épisodes et de produire quelques visualisations sans prétention scientifique...
Quelques épisodes n’étaient malheureusement pas disponible pour la
transcription (YAN!?), donc il a été possible de générer l’analyse sur seulement 162 des 243
épisodes diffusés. Au total, ce sont 340 heures de contenu audio qui a dû être téléchargé,
nettoyé, et analysé pour produire les visualisations ci-bas. Ça fait beaucoup de sacres
—
5634 pour être exact.
J'ai rassemblé ce que je crois être les termes québécois, plus ou moins vulgaires, les plus utilisés lors de mes écoutes. Vu l'automatisation de la transcription par Youtube, plusieurs termes comme "criss" sont interprétés de multiples façons par l'algorithme, nécessitant l'agrégation de plusieurs variations comme "christ" et "chris" sous le même chapeau.
Puisqu’aucun mot vulgaire n’est équivalent, il m’a fallu établir un score (aucunement scientifique) sur l’interprétation de la vulgarité de chacun des termes. Tabarnak, criss et câlisse se hissent au sommet des termes vulgaires avec un score de 1 par mention. Les autres termes oscillent entre un score de 0.8 (fuck) et 0.4 (tabarouette). Le Trash Score d’un épisode représente la somme totale du score des mots du dictionnaire mentionnés.
Classement du Trash Score par épisode, où y= score et x= # de l'épisode. Les épisodes dans la partie supérieure du graphique sont à priori les plus vulgaires, contrairement à ceux du bas. Vous pouvez survoler les points pour plus d'informations.
Cinq épisodes avec le Trash Score le plus élevé.
Cinq épisodes avec le Trash Score le plus bas.
Classement des termes vulgaires les plus entendus au fil des épisodes.
1. J’ai utilisé youtube-dl
pour le scraping des titres, urls et des
sous-titres. Cet outil command-line permet de récupérer des vidéos et des métadonnées d'une
majorité de plateformes, dont Youtube et Tou.tv. Quelques exemples de commandes;
#Obtenir les URLs des vidéos d'une
playlist
youtube-dl -j --flat-playlist "URL" | jq -r '.id' | sed
's_^_https://youtu.be/_' > urls.txt
#Obtenir les titres des
vidéos d'une playlist
youtube-dl --get-title URL > titres.txt
# Obtenir la transcription française des vidéos d'une playlist, sans
les télécharger
youtube-dl --write-auto-sub --sub-lang 'fr'
--skip-download -o "%(title)s.%(ext)s" -v URL
2. Un peu de nettoyage des fichiers .vtt est nécessaire vu le format brut utilisé par youtube. J’ai modifié un script python que j’ai trouvé en ligne qui permet de retirer tout le flafla et les duplications des fichiers .vtt, et de conserver seulement le corps du texte qui nous intéresse avec la minute (HH:MM) du bloc de transcription. Vous pouvez trouver le script ici, et le faire rouler pour tous les fichiers d’un dossier avec:
find . -name "*.vtt" -exec python vtt.py {} \;
3. Pour effectuer un décompte associé aux termes d'un dictionnaire, vous pouvez utiliser fgrep et awk avec une commande du genre:
fgrep -of dictionnaire.txt *.txt | sort | uniq -c | awk '{print $2 " " $1}' > recensement.txt
En regardant les transcriptions brutes de Youtube, il est évident
que l’algorithme de reconnaissance vocale n’est pas encore au point pour le français
québécois. Le débit de parole et la familiarité des expressions utilisées lors du podcast
compliquent l’interprétation au point tel que seulement une minorité des phrases sont
syntaxiquement correctes. Il faut donc prendre ces résultats avec un grain de sel.
Vous pouvez télécharger un .CSV des épisodes avec les résultats, ou encore accèder aux fichiers bruts de transcription par épisode.