Aller au contenu

« Analyse des correspondances multiples » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
AOMckey (discuter | contributions)
Réécriture en style plus encyclopedique, suppression de redites, correction de formule, ajout de sources
m Ajout d’une virgule entre plusieurs références.
Ligne 3 : Ligne 3 :
{{Infobox Méthode scientifique}}
{{Infobox Méthode scientifique}}


L’'''analyse des correspondances multiples''' (ACM) est une méthode d'[[analyse factorielle]] adaptée aux données qualitatives (aussi appelées catégorielles). Contrairement à l'[[Analyse factorielle des correspondances|AFC]] qui étudie le lien en deux variables qualitatives, l'ACM la généralise en permettant d'étudier le lien entre plusieurs variables qualitatives<ref>{{Lien web |langue=fr |auteur= |auteur institutionnel=Université Paris 13 |titre=Analyse statistique des données, cours 4, Master 2 EID |url=https://www.lpsm.paris/pageperso/goutte/index_fichiers/AutresEnseignement/Master_2_Info/Cours4_EID_07_08.pdf |site=https://www.lpsm.paris |date=2007 |consulté le=20/11/2020 |page=2}}</ref><ref name=":0">{{Lien web |langue=fr |auteur=Valérie Monbet |titre=Analyse des données, Master Statistique et économétrie, Notes de cours |url=https://perso.univ-rennes1.fr/valerie.monbet/Cours_AD/cours_2013-14.pdf |site=https://perso.univ-rennes1.fr |date=2013 |consulté le=23 novembre 2020 |page=46-62}}</ref>. Un exemple typique de ces données est celui des enquêtes d’opinion.
L’'''analyse des correspondances multiples''' (ACM) est une méthode d'[[analyse factorielle]] adaptée aux données qualitatives (aussi appelées catégorielles). Contrairement à l'[[Analyse factorielle des correspondances|AFC]] qui étudie le lien en deux variables qualitatives, l'ACM la généralise en permettant d'étudier le lien entre plusieurs variables qualitatives<ref>{{Lien web |langue=fr |auteur= |auteur institutionnel=Université Paris 13 |titre=Analyse statistique des données, cours 4, Master 2 EID |url=https://www.lpsm.paris/pageperso/goutte/index_fichiers/AutresEnseignement/Master_2_Info/Cours4_EID_07_08.pdf |site=https://www.lpsm.paris |date=2007 |consulté le=20/11/2020 |page=2}}</ref>{{,}}<ref name=":0">{{Lien web |langue=fr |auteur=Valérie Monbet |titre=Analyse des données, Master Statistique et économétrie, Notes de cours |url=https://perso.univ-rennes1.fr/valerie.monbet/Cours_AD/cours_2013-14.pdf |site=https://perso.univ-rennes1.fr |date=2013 |consulté le=23 novembre 2020 |page=46-62}}</ref>. Un exemple typique de ces données est celui des enquêtes d’opinion.


L'ACM permet d'étudier le lien entre ces variables soit par l'intermédiaire d'un tableau appelé [[tableau disjonctif complet]] (TDC) ou d'un tableau appelé [[tableau de Burt]] (TB). Dans de tel tableaux de données, les individus (en lignes) sont décrits par un ensemble de variables qualitatives (en colonnes).
L'ACM permet d'étudier le lien entre ces variables soit par l'intermédiaire d'un tableau appelé [[tableau disjonctif complet]] (TDC) ou d'un tableau appelé [[tableau de Burt]] (TB). Dans de tel tableaux de données, les individus (en lignes) sont décrits par un ensemble de variables qualitatives (en colonnes).
Ligne 15 : Ligne 15 :
Notons qu'il est possible d'inclure une variable quantitative dans l'analyse à condition de remplacer ses valeurs numérique en plage de valeur, afin de la convertir en variable catégorielle.
Notons qu'il est possible d'inclure une variable quantitative dans l'analyse à condition de remplacer ses valeurs numérique en plage de valeur, afin de la convertir en variable catégorielle.


Le traitement mathématique<ref>{{Lien web |langue=en |format=pdf |auteur=Hervé Abdi |auteur2=Dominique Valentin |titre=Multiple Correspondence Analysis |url=https://personal.utdallas.edu/~herve/Abdi-MCA2007-pretty.pdf |site=https://personal.utdallas.edu |date=2007 |consulté le=23 novembre 2020 |page=3}}</ref><ref name=":0" /> du TDC <math>X</math> est le suivant: On calcule d'abord <math>Z=X/(IK)</math>, puis le vecteur <math>r</math>, qui contient la somme en ligne de la matrice <math>Z</math> (<math>r</math> pour "row" en anglais), et <math>c</math>, qui contient la somme en colonne de la matrice <math>Z</math>. On note également <math>D_r = \text{diag}(r)</math> et <math>D_c = \text{diag}(c)</math> les [[Matrice diagonale|matrices diagonales]] issues de <math>r</math> et <math>c</math> respectivement. L'étape clé est une [[Décomposition en valeurs singulières|décomposition en valeur singulière]] de la matrice suivante :
Le traitement mathématique<ref>{{Lien web |langue=en |format=pdf |auteur=Hervé Abdi |auteur2=Dominique Valentin |titre=Multiple Correspondence Analysis |url=https://personal.utdallas.edu/~herve/Abdi-MCA2007-pretty.pdf |site=https://personal.utdallas.edu |date=2007 |consulté le=23 novembre 2020 |page=3}}</ref>{{,}}<ref name=":0" /> du TDC <math>X</math> est le suivant: On calcule d'abord <math>Z=X/(IK)</math>, puis le vecteur <math>r</math>, qui contient la somme en ligne de la matrice <math>Z</math> (<math>r</math> pour "row" en anglais), et <math>c</math>, qui contient la somme en colonne de la matrice <math>Z</math>. On note également <math>D_r = \text{diag}(r)</math> et <math>D_c = \text{diag}(c)</math> les [[Matrice diagonale|matrices diagonales]] issues de <math>r</math> et <math>c</math> respectivement. L'étape clé est une [[Décomposition en valeurs singulières|décomposition en valeur singulière]] de la matrice suivante :


: <math> M = D_{r}^{-1/2} (Z-r c^t ) D_{c}^{-1/2}</math>
: <math> M = D_{r}^{-1/2} (Z-r c^t ) D_{c}^{-1/2}</math>

Version du 23 novembre 2020 à 18:24

Analyse des correspondances multiples
Typ
Nom court
ACMVoir et modifier les données sur Wikidata

L’analyse des correspondances multiples (ACM) est une méthode d'analyse factorielle adaptée aux données qualitatives (aussi appelées catégorielles). Contrairement à l'AFC qui étudie le lien en deux variables qualitatives, l'ACM la généralise en permettant d'étudier le lien entre plusieurs variables qualitatives[1],[2]. Un exemple typique de ces données est celui des enquêtes d’opinion.

L'ACM permet d'étudier le lien entre ces variables soit par l'intermédiaire d'un tableau appelé tableau disjonctif complet (TDC) ou d'un tableau appelé tableau de Burt (TB). Dans de tel tableaux de données, les individus (en lignes) sont décrits par un ensemble de variables qualitatives (en colonnes).

Principe

Soit un TDC concernant individus décrits par variables qualitatives, pouvant prendre en tout modalités. Pour faire simple disons que la première variable prend les modalités , que la deuxième variable prend les modalités et ainsi de suite. On a alors et les modalités possibles sont . En pratique on trouve plutôt des modalités telles que "femme", "oui", "un peu", "grand", etc. On note ce TDC à lignes et colonnes dans lequel l’intersection de la ligne et de la colonne (associée à la modalité ), on trouve :

  • 1 si l’individu possède la modalité  ;
  • 0 sinon

Notons qu'il est possible d'inclure une variable quantitative dans l'analyse à condition de remplacer ses valeurs numérique en plage de valeur, afin de la convertir en variable catégorielle.

Le traitement mathématique[3],[2] du TDC est le suivant: On calcule d'abord , puis le vecteur , qui contient la somme en ligne de la matrice ( pour "row" en anglais), et , qui contient la somme en colonne de la matrice . On note également et les matrices diagonales issues de et respectivement. L'étape clé est une décomposition en valeur singulière de la matrice suivante :

La décomposition de donne accès aux matrices , et telles que avec , deux matrices unitaires et est la matrice diagonale généralisée contenant les valeurs singulière ordonnées de la plus grande à la plus petite. a les mêmes dimensions que . les coefficients diagonaux de sont les valeurs propres de et correspondent à l'inertie de chacun des facteurs. Ces facteurs sont les coordonnées des individus (ligne) ou variables (colonne) sur chacun des axes factoriels. Les coordonnées des individus dans ce nouvel espace vectoriel sont données par la formule suivante:

La -ième ligne de sont les coordonnées du -ième individu dans l'espace factoriel. Tandis que les coordonnées des variables dans le même espace factoriel sont données par:

Domaine d'application

L'ACM est une méthode très générale qui s'applique à tout tableau dans lequel un ensemble d'individus est décrit par des variables qualitatives. Elle n'est donc pas inféodée à un champ disciplinaire particulier. Toutefois elle est très utilisée dans le traitement des enquêtes d'opinion, les questionnaires étant souvent composés de questions à choix multiples.

Dans le cas d’une enquête, les individus répondent à des questions à choix multiples (les variables dans l'analyse). Exemple de question : "dans la liste suivante (ouvrier, employé etc.), cocher votre catégorie socio-professionnelle", ou encore, "qu'achetez-vous le plus souvent, du pain blanc ou du pain noir?". On souhaite alors explorer le lien entre les différentes modalités possibles. Une observation possible est : le pain blanc est plutôt consommé par les ouvriers.

Une mention particulière doit être faite à la sociologie. L'ACM est très utilisée par les sociologues s'inspirant de Pierre Bourdieu pour étudier un « champ » spécifique.

Par exemple, le sociologue Frédéric Lebaron emploie une ACM pour analyser le champ des économistes français[4] et Hjellbrekke et ses coauteurs appliquent la même méthode pour analyser le champ des élites norvégiennes[5]. De même, Julien Duval utilise une ACM pour analyser le champ du cinéma français[6].

Autre exemple : Christian Baudelot et Michel Gollac utilisent une analyse des correspondances multiples pour étudier le rapport des Français à leur travail[7].

Les nuages de points en ACM

Comme toute analyse factorielle, l’ACM peut s’interpréter géométriquement à partir d’un nuage dont les points représentent les lignes du tableau analysé et d’un nuage dont les points représentent les colonnes de ce tableau[8].

Étude des individus

Un individu est représenté par l’ensemble de ses réponses, ce que l’on appelle son profil de réponse. On étudie la variabilité de ces profils de réponse. Comme dans toute analyse factorielle, cette variabilité est décomposée selon une suite de variables synthétiques (notées et sont les colonnes de ). Ces variables synthétiques sont maintenant quantitatives et permettent des représentations graphiques et l'utilisation de méthode d'analyse adaptée aux variables quantitatives. On ne retient en générale que les premières colonnes de , correspondant aux dimension de l'espace factoriel qui regroupent le plus d'inertie.

Étude des variables

La liaison entre deux variables qualitatives s’étudie au travers des associations entre leurs modalités. Par exemple, un élément de la description de la liaison entre les variables couleur des yeux et couleur des cheveux est : les personnes qui ont les cheveux blonds ont plutôt les yeux bleus. En présence d’un ensemble de variables qualitatives, on cherche donc les associations entre toutes les modalités. On attend de l’ACM une représentation des modalités dans laquelle les modalités qui s’associent entre elles sont proches. Les remarques concernant restent valables pour .

Représentation des deux nuages

De façon intuitive, et comme dans toute analyse factorielle, l’ACM consiste à projeter chacun des deux nuages sur une suite d’axes orthogonaux d’inertie maximum (cela correspondant mathématiquement à l'étape de décomposition en valeurs singulières). Dans , la quantité maximisée est la moyenne des carrés des rapports de corrélation. Pour l’axe il s'agit de maximiser .

Les dimensions de l’ACM peuvent donc être considérées comme des variables synthétiques. Les valeurs de sont les coordonnées des individus sur l’axe de rang (dans ). Il en résulte que, dans la représentation des individus :

  • les individus qui ont beaucoup de modalités en commun sont aussi proches que possible ;
  • les individus qui ont peu (voire aucune) modalités en commun sont aussi séparés que possible.

En combinant deux de ces axes, on obtient une représentation plane, aussi dite "plan factoriel". En pratique, on se contente souvent du premier plan factoriel pour avoir une représentation graphique simple.

Règle d'interprétation

En ACM, on peut superposer la représentation des individus et celle des modalités. Ceci est permis par les relations de transition, présentes dans toute analyse factorielle mais qui s’expriment de façon particulièrement simple en ACM.

A un coefficient près, pour un axe donné :

  • un individu est au barycentre des modalités qu’il possède ;
  • une modalité est au barycentre des individus qui la possèdent.

Ces relations sont aussi connues sous le nom de propriétés barycentriques.

Exemple

On utilise ici un exemple de très petite taille, ce qui permet de vérifier facilement dans les données les interprétations réalisées à partir des plans factoriels (cf. tableau 1).

On a demandé à six individus leur préférence pour les fruits (orange, poire, pomme) les légumes (épinard, haricot) et la viande (cheval, mouton, porc).

Tableau 1. Données préférences alimentaires. Exemple: l'individu 1 a préféré la pomme (comme fruit), le haricot (comme légume) et le cheval (comme viande).
Fruit Légume Viande
Pomme Haricot Cheval
Poire Haricot Cheval
Orange Haricot Mouton
Pomme Épinard Mouton
Poire Épinard Porc
Orange Épinard Porc

Appliquée au tableau 1, l'ACM fournit la représentation de la figure 1.

Figure 1. Données préférences alimentaires. ACM. Représentation des individus et des modalités (fournie par le package R FactoMineR[9]).

Le premier axe oppose le groupe d’individus (à droite) au groupe (à gauche).

Le groupe d’individu est caractérisé :

  • d’abord et surtout par une préférence pour la viande de cheval (ce sont les seuls dans ce cas) ;
  • puis par une préférence pour les haricots (préférence qu’ils partagent tous les deux mais qu’ils partagent aussi avec ).

De son côté le groupe est caractérisé :

  • d’abord et surtout par une préférence pour la viande de porc (ce sont les seuls dans ce cas) ;
  • puis par une préférence pour les épinards (préférence qu’ils partagent tous les deux mais qu’ils partagent aussi avec ).

Illustration des relations de transition

L’individu a préféré poire, haricot et cheval. Il se trouve bien du côté de ces trois modalités. Par rapport au centre de gravité exact de ces modalités, il est un peu plus écarté de l’origine : en effet, le coefficient mentionné dans les relations de transition est toujours supérieur à 1.

La modalité cheval a été choisie par et . Elle est donc du côté de ces individus. Par rapport au centre de gravité de et , elle est légèrement excentrée (pour la même raison que dans le cas précédent).

Figure 2. Données préférences alimentaires. ACM. Représentation des variables (carré des liaisons) fournie par le package R FactoMineR[9].

Représentation complémentaire : le carré des liaisons

Dans le carré des liaisons, les variables sont représentées à l’aide de leur rapport de corrélation avec les facteurs. Ainsi, dans l’exemple, ce carré montre que :

  • le premier axe est d’abord lié à la viande, puis au légume ;
  • le deuxième axe, quant à lui, est lié également à la viande et au fruit.

Cette représentation est d’autant plus utile que les variables sont nombreuses.

ACM, AFC et ACP

Lorsque l’on met en œuvre un programme d’AFC sur un tableau disjonctif complet ou sur un tableau de Burt, on obtient les axes de l’ACM. C’est ce qui conduit certains auteurs à considérer l’ACM comme un cas particulier (ou une extension) de l’AFC.

En fait l’ACM possède plusieurs propriétés spécifiques qui en font bien une méthode à part entière. En outre les axes de l’ACM peuvent aussi être obtenus en appliquant un programme d’ACP au TDC (légèrement modifié)[10]. Ces convergences expriment le fort dénominateur commun entre les méthodes factorielles et non des relations hiérarchiques entre elles.

Extensions

Très souvent, dans les enquêtes d'opinion, les questionnaires sont structurés en thèmes. Il est toujours intéressant de prendre en compte cette structure en groupes des questions. C'est ce que fait l'Analyse factorielle multiple[11].

Notes et références

  1. Université Paris 13, « Analyse statistique des données, cours 4, Master 2 EID », sur https://www.lpsm.paris, (consulté le ), p. 2
  2. a et b Valérie Monbet, « Analyse des données, Master Statistique et économétrie, Notes de cours », sur https://perso.univ-rennes1.fr, (consulté le ), p. 46-62
  3. (en) Hervé Abdi et Dominique Valentin, « Multiple Correspondence Analysis » [PDF], sur https://personal.utdallas.edu, (consulté le ), p. 3
  4. Frédéric Lebaron, La Croyance économique, Le Seuil, coll. « Liber », , 1re éd., 260 p. (ISBN 978-2020411714)
  5. (en) Johs Hjellbrekke, Brigitte Le Roux, Olav Korsnes, Frédéric Lebaron, Henry Rouanet et Lennart Rosenlund, « The Norwegian Field of Power Anno 2000 », European Societies, vol. 9, no 2,‎ , p. 245-273 (lire en ligne, consulté le )
  6. Julien Duval, « L'art du réalisme », Actes de la recherche en sciences sociales, nos 161-162,‎ , p. 96-195 (lire en ligne, consulté le )
  7. Christian Baudelot et Michel Gollac, « Faut-il travailler pour être heureux ? », Insee Première, no 560,‎ (lire en ligne, consulté le )
  8. Les propriétés de ces nuages sont décrites en détail dans Escofier & Pagès 2008, p. 85 et suiv.
  9. a et b (en) Francois Husson (Francois Husson), Julie Josse, Sebastien Le et Jeremy Mazet, « FactoMineR: Multivariate Exploratory Data Analysis and Data Mining », sur https://cran.r-project.org, (consulté le )
  10. Une présentation complète de l'ACM à partir de l'ACP se trouve dans Pagès 2013, p. 37 et suiv.
  11. Deux ouvrages accordent une large place à l'analyse factorielle multiple : Escofier & Pagès 2008 et Pagès 2013

Voir aussi

Bibliographie

  • François Husson, Sébastien Lê et Jérôme Pagès, Analyse des données avec R, Presses Universitaires de Rennes, , 224 p. (ISBN 978-2-7535-0938-2)
  • Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples ; objectifs, méthodes et interprétation, Dunod, Paris, , 318 p. (ISBN 978-2-10-051932-3)
  • Jérôme Pagès, Analyse factorielle multiple avec R, EDP sciences, Paris, , 253 p. (ISBN 978-2-7598-0963-9)

Liens internes

Liens externes