Statistique
Analyse de textes
Fréquences d’apparition des mots. Loi de puissance.

Analyse de la fréquence d’apparition des mots utilisés pour écrire un texte.

Article mis en ligne le 13 août 2006
dernière modification le 20 mars 2013

par bernard.vuilleumier

Fréquences d’apparition des mots dans un texte

Le vocabulaire d’un enfant de 10 ans comporte environ 5’000 mots, celui d’un adulte cultivé 70’000 et les dictionnaires en plusieurs volumes peuvent en contenir de 130’000 à 200’000 [1]. Mais pour juger de la qualité lexicographique d’un texte, il faut non seulement connaître le nombre de mots utilisés mais aussi la fréquence d’apparition des mots.

Pour en savoir plus
 Loi de Zipf - Wikipédia
 Jean Véronis, Informatique et statistique I

Questions

  1. Placez le fichier à analyser dans le répertoire courant.
  2. Formez la liste des mots figurant dans le fichier.
  3. Définissez les motifs permettant d’éliminer les « mots » indésirables et éliminez-les de la liste des mots.
  4. Etablissez les fréquences d’apparition des mots et classez ces fréquences par ordre décroissant en éliminant les doublons (vous ne retenez qu’une fois chaque fréquence).
  5. Reportez le logarithme de la fréquence en fonction du logarithme de sa position dans la liste.
  6. Comment peut-on comparer la richesse lexicographique de différents textes à partir de ce graphique ?