Aller au contenu

« Mot vide » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Toutoune25 (discuter | contributions)
LiveRC : Révocation des modifications de 80.9.141.191; retour à la version de Oufleseb
Aucun résumé des modifications
Ligne 16 : Ligne 16 :
* [http://www.ranks.nl/stopwords/french.html Répertoire de mots vides] dans plusieurs langues.
* [http://www.ranks.nl/stopwords/french.html Répertoire de mots vides] dans plusieurs langues.
* [http://snowball.tartarus.org/algorithms/ Listes de mots vides du projet Snowball] (en [http://snowball.tartarus.org/algorithms/french/stop.txt français], anglais, allemand, espagnol, portugais, italien, néerlandais, danois, suédois, norvégien, russe, finnois et hongrois). Les listes issues de ce logiciel libre de [[lexémisation]] sont utilisées dans le module [[Perl (langage)|Perl]] ''Lingua::StopWords''.
* [http://snowball.tartarus.org/algorithms/ Listes de mots vides du projet Snowball] (en [http://snowball.tartarus.org/algorithms/french/stop.txt français], anglais, allemand, espagnol, portugais, italien, néerlandais, danois, suédois, norvégien, russe, finnois et hongrois). Les listes issues de ce logiciel libre de [[lexémisation]] sont utilisées dans le module [[Perl (langage)|Perl]] ''Lingua::StopWords''.
* [http://www.web-mining.fr/wiki/stopwords Liste de mots vides] dans 15 langues européennes.


[[Catégorie:Lexicologie]]
[[Catégorie:Lexicologie]]

Version du 19 novembre 2008 à 10:46

Les mots vides (ou stop words, en anglais) sont des mots qui sont tellement communs qu'il est inutile de les indexer ou de les utiliser dans une recherche. En français, des mots vides évidents pourraient être « le », « la », « de », « du », « ce », « ça », ...

Un mot vide est un mot non significatif figurant dans un texte. On l'oppose à mot plein. La signification d'un mot s'évalue à partir de sa distribution (au sens statistique) dans une collection de textes. Un mot dont la distribution est uniforme sur les textes de la collection est dit "vide". En d'autres termes, un mot qui apparaît avec une fréquence semblable dans chacun des textes de la collection n'est pas discriminant, ne permet pas de distinguer les textes les uns par rapport aux autres.

Lorsque tous les textes de la collection sont rédigés dans une même langue, les mots vides sont principalement des mots caractéristiques de cette langue comme les prépositions, les articles, les pronoms. D'où l'assimilation courante entre mots vides et mots grammaticaux et partant, entre mots pleins et mots lexicaux (noms, verbes, adjectifs). Les listes pré-établies, dites de mots vides, utilisées par les moteurs de recherche sont ainsi des listes de mots grammaticaux.

Cependant dans une collection de textes réunis autour d'un thème commun, certains mots peuvent respecter une distribution uniforme. Ce sont alors des mots vides pour cette collection bien qu'ils ne soient pas des mots grammaticaux. D'autre part, certains mots grammaticaux sont assez rares pour constituer des mots pleins (ex. : via).

Voir aussi

Liens externes