No description
Find a file
2025-07-30 16:56:55 +02:00
img
main.py
mise.toml
OBJECTIVE.md
pyproject.toml
README.md
resultat.csv
temps_parole.csv
uv.lock

Analyses de données sur le débat du 17 juillet

Voici l'analyse de données sur la distribution du temps de parole en fonction des genres.

Objectifs

voir les objectifs (et les non objectifs !)

Résultats

Graphes dans img et tableau dans resultat.csv.

Pour retrouver ces résultats, exécuter main.py avec les librairies précisées dans pyproject.toml.

[!INFO] De base, j'utilise uv et mise, mais ces logiciels ne sont pas nécessaire.

Données brute

Les données sont disponibles dans temps_parole.csv.

Nomenclature

Intervenant

J'aurai peut être du l'appeler animateur. Il s'agit de la personne qui animait cette réunion (masculin ici). Je considère qu'une prise de parole d'un animateur d'une réunion n'est pas de même nature qu'une prise de parole d'un autre individu. C'est un choix conscient.

Genre des prises de parole

Ici il n'est pas questions du genre des individus prenant la parole, mais d'à quel genre associer cette prise de parole. C'est la théorie. En pratique, les données temps_parole.csv ont été prises en fonction du genre des individus, en supposant que le bruit lié à une différence entre le genre de l'individu et le genre de la prise de parole est noyé avec succès dans la quantité de données.

Donc pour le moment, le choix de dire "masculin" au lieu "d'homme" est juste une manière de mettre en valeur la différence entre "genre de l'individu" et "genre de la prise de parole" (ou même plus généralement "genre du comportement de l'individu") (sachant que le genre est une construction sociale).

Aides

Pourquoi ces résultats sont indépendants du nombre d'individus dans chaque groupe

On peut partir de cette intuition: La médiane du prix du pain au kilos peut être comparé à la médiane du prix des tomates au kilos, même s'il y a beaucoup plus de pains vendus que de tomates ! (cela s'applique aussi pour le minimum, la moyenne, etc.)

En soit, le prix de différents pains a une répartition (disons gaussienne). Rajouter plus de pains dans l'analyse ne va pas changer cette répartition. Cela va juste permettre de diminuer l'incertitude sur ce modèle de répartition (qui existe objectivement).

Le prix de différentes tomates a aussi une répartition, qui peut être différente (disons uniforme). Rajouter plus de tomate ne va pas changer cette distribution objective, mais la qualité de la représentation de cette distribution (i.e. L'incertitude).

Autrement dit, rajouter des données sur des prises de paroles en débat va améliorer la qualité des résultats (pour l'instant, je n'ai même pas mis de barre d'erreur, et ce n'est pas bien !). Mais il n'est pas utile de spécifiquement modifier la répartition des genres dans les prises de paroles.

Lire un boxplot

L'image boxplot.png est un graphe boxplot. Il permet de montrer des données sur la distribution des temps de parole.

La ligne au centre du boxplot représente la médiane. 50% des prises de parole sont en dessous, 50% au dessus.

La boîte (le rectangle noir) représente les premier et troisième quartiles. La ligne du dessous représente le premier quartile: 25% des prises de parole sont en dessous, 75% au dessus. La ligne du dessus représente le troisième quartile: 75% des prises de parole sont moins longues, 25% plus longues.

La ligne la plus basses, qui n'est pas dans la boîte est la prise de parole la plus courte (min). La ligne la plus haute est la prise de parole la plus longue (max).

La largeur des lignes (et les lignes verticales) n'ont aucun intérêt. C'est juste plus joli !

Lire un histogramme

L'image distribution.png représente la répartition des temps de parole au sein d'un même groupe en fonction du temps de parole. Chaque rectangle représente un bloc de temps de parole (par exemple, tout les temps de parole entre 5 et 20 secondes). La hauteur du rectangle représente le nombre de temps de parole dans cet intervalle.

Intérêt

Avoir plus de données sur le temps de parole de chaque individu. La question de "qu'est-ce qu'on en fait" est bonne. Il s'agirai, à mon avis, de mettre un cadre structurel pour limiter ce genre de comportement en général.