|
Les traitements bi-variés ont pour objet de mettre en évidence les relations éventuelles qui existent entre deux variables analysées simultanément. Dans la plupart des cas l'analyste cherchera à expliquer une des deux variables - dite variable à expliquer (Y) - à l'aide de l'autre variable - dite variable explicative (X). Expliquer une variable à l'aide d'une autre revient à repérer dans quelle mesure les différentes valeurs que peut prendre la variable explicative ont une conséquence sur les valeurs prises par la variable à expliquer. |
|
Exemple:
Le fait de changer de conditionnement a-t-il un
effet sur le niveau des ventes d'un produit donné ? Le
conditionnement joue ici le rôle de variable explicative et le
niveau des ventes de variable à expliquer Comme dans le cas des traitements uni-variés, le mode d'analyse utilisable va dépendre de la nature des variables étudiées: quantitatives, ordinales ou nominales. Ces analyses seront à nouveau présentées ici dans le cadre des études marketing par questionnaires: il s'agira donc du traitement des tri-croisés. |
|
Dans la mesure où une question peut
relever fondamentalement de trois niveaux de mesure différents,
on comptera neuf types de croisements possibles entre les questions
2 -
Exemple: Dans le questionnaire CAMIP, étude des relations entre le proportion des achats par catalogue (question 1 ) et le revenu de la personne (question 11). L'appartenance à une catégorie de revenu plus élevé entraîne-t-elle une plus grande proportion des achats par catalogue ? 2 -
Exemple: Croisement entre la question 22 sur la préférence pour un type de magasin ou une modalité d'achat et la question 26: le fait de préférer d'acheter par catalogue ou par une autre modalité, dépende-t-elle de la situation civile du répondant? 3 -
Exemple: Croisement entre l'ordre de préférence pour les différentes catégories d'équipement de bureau (micro-ordinateurs, imprimantes, scanners..) exprimé par chaque répondant et un classement a priori correspondant à l'importance accordé à chaque catégorie d'équipement dans le catalogue (exprimé par exemple en nombre de pages). 4 -
Exemple: Croisement entre une question ouverte concernant le nombre d'objets achetés par catalogue et la question 26. La situation civile influence-t-elle le nombre d'objets achetés par catalogue? 5 -
Exemple: Croisement entre un classement de préférence et la question 26. Le fait de relever d'un statut familial donné entraîne-t-il des préférences pour une catégorie de produit bureautiques ? |
|
Le tableau 1. donne les principaux tests utilisables dans l'analyse des tris croisés. Seuls les tests correspondant aux croisements les plus fréquents y sont indiqués. Tableau 1: Tests des tris croisés selon la nature des variables
En colonne figurant les variables à expliquer et en ligne les variables explicatives. |
|
Le croisement de deux variables quantitatives peut être effectué dans des circonstances très variées :
|
|
Supposons que dans le cadre de l'étude CAMIP, on a ajouté une question sur la nombre de disquettes d'ordinateur achetées par an qu'on croise avec la question 27(le fait d'être homme ou femme) a fait apparaître les résultats suivants: les hommes (A): Na = 155; nombre moyen de disquettes = 10, avec Sa2 = 64; les femmes (B): Nb = 75; Xb = 3, Sb = 25. La variance des différences de moyennes est donnée par: 64/155 + 25/75 = 0,74. L'écart type de D est alors = 0,86. L'hypothèse nulle pour laquelle il n'existe pas de différence dans les quantités de disquettes achetées par les homme et par les femmes peut être rejetée, puisque z = (10 - 3)/0,86 est supérieur à 1 96
|
|
- Pour des petits échantillons (Na et Nb < 30), on utilisera le test de Student. Dans la mesure où la variance des Xa et des Xb est estimée la variance de la distribution des différences de moyennes est approchée par l'expression : s D2 = [(Na-1)sa2 + (Nb-1) sb2] /(Na + Nb - 2)(1/Na + 1/Nb) (20) La différence D suit alors une loi de Student à (Na + Nb - 2) degrés de liberté.
|
|
Quand plus de deux populations sont concernés, on aura recours au test F. Si l'hypothèse de normalité évoquée plus haut n'est pas respecté on pourra employer le test de Kruskal-Wallis.
|
|
Dans le cas d'échantillons appariés, à chaque individu d'un premier groupe est associé un individu du second groupe (le groupe-témoin) offrant les mêmes caractéristiques. Pour chaque couple i de deux individus appariés,
une différence
On montre que
|
|
Les relations entre deux variables quantitatives sur la même population sont généralement analysées à l'aide du coefficient de corrélation de Pearson qui sera étudié au cours du chapitre portant sur la régression linéaire
|
|
Dans le chapitre précédent on a vu une application du test du Khi-Deux pour l'évaluation de la qualité de l'ajustement d'une distribution de fréquences observées à une distribution théorique. De façon plus générale, ce test est employé pour analyser les tableaux de contingence et repérer le caractère statistiquement significatif de l'association entre deux variables nominales. La statistique du
où Nij = nombre d'observations dans la case ij; Qij = nombre théorique associé à la case ij = (Total de la ligne i).(Total de la colonne j)/Nombre total d'observations. Pour un tableau comportant C colonnes et
L lignes, la valeur ainsi calculée est comparée
à la valeur critique
La table du Khi-Deux donne la distribution de
probabilité des valeurs de
|
|
Exemple Le tableau 2 a donné les résultats d'un éventuel
résultat du croisement des questions 3 (le fait d'avoir
commandé) et 27 (être homme où femme). Le tableau
2b fournit les valeurs théoriques: par exemple, pour la case
1, la valeur 53,91 = (80)(155)/230. Les différences ( Tableau 2.: Application du Khi-Deux à un tableau de contingence a) Croisement question Q3 et Q27: valeurs observées
b) Valeurs théoriques
c) Différences entre valeurs observées et valeurs théoriques
d) Croisement questions Q3 et Q27: calcul du Khi-Deux
Khi-Deux calculé: 28,64 nombre ddl: 2 Khi-Deux critique: 5,99 risque: 5 % Le test est fourni couramment par les logiciels; il souffre cependant de certaines limitations: - l'effectif sur lequel porte le tableau doit être suffisamment important on ne doit pas trouver plus de 20 % de cases avec un effectif inférieur à 5 ; - le
le
|
|
Plusieurs coefficients peuvent repérer le
degré d'association entre les deux variables étudiées.
Pour les tableaux de contingence de taille 2 x 2, on peut déduire
du
F = [ F présente l'avantage d'être indépendant de la taille de l'échantillon, et de varier entre 0 et 1 . Pour les tableaux plus grands, c'est un coefficient de contingence C qui sera utilisé : C = [ Plus C est élevé et plus forte est
l'association entre les deux variables concernées. Le minimum
de ce coefficient est 0 (indépendance totale des variables
avec
|
|
Lorsque l'on considère deux modalités de la variable explicative, les effectifs associés à une modalité donnée de la variable à expliquer peuvent être traduits en fréquence relative. Il s'agit de vérifier dans quelle mesure la différence de fréquences observées est significative. Soient Pa la fréquence relative associée à la modalité A (effectif Na) de la variable explicative et Pb celle qui est associée à la modalité B (effectif Nb) La variance des différences de
proportions est donnée par
Les intervalles de confiance et le test des différences de proportions s'obtiennent dans les mêmes conditions qu'en ce qui concerne les moyennes. |
|
Exemples: Avec le croisement des questions 3 et 27 du questionnaire CAMIP,
il apparaît que sur 155 hommes, 70 n'ont jamais commandé,
soit 45,16 % et seulement 10 sur 75 femmes , soit 13,33 %
|
|
Ce test permet de repérer le caractère significatif de la relation qui existe entre deux classements. Il est également utilisé pour montrer la relation éventuelle qui existe entre deux variables quantitatives. Soit n le nombre d'items à classer; Xi
est le rang de l'item i dans un premier classement et Yi son rang
dans un second.
Plus Rs est proche de 1 et plus les deux classements sont proches; à la limite, ils sont complètement identiques si Rs = 1. Au contraire, plus Rs est proche de 0 et plus les deux classements sont indépendants. La signification statistique de Rs obtenue peut être testée à partir de la relation:
qui suit une loi de Student à n - 2 degrés de liberté |
|
Exemple: Croisement entre l'ordre de préférence pour les
différentes catégories d'équipement de bureau
(micro-ordinateurs, imprimantes, scanners..) exprimé par
chaque répondant et un classement a priori correspondant à
l'importance accordé à chaque catégorie
d'équipement dans le catalogue (exprimé par exemple en
nombre de pages).Le tableau 2.3. montre un exemple de calcul du
coefficient de Spearman avec le traitement d'une question concernant
le classement d'intérêt d'achat pour les catégories
de produits (A - micro-ordinateurs, B - imprimantes, C - scanners et
D fax) par l'individu 124. On constate une corrélation R. = 1
- (6)(38)/(5)(25-1)= - 0,9 entre les choix de la direction et ceux de
l'individu n° 128. Cette corrélation est significative
puisque t = (-0,9)( )/ ( = - 3,576. Cette valeur est supérieure
au t de Student pour 3 degrés de liberté et un seuil de
confiance de 95 % (3,182). Tableau 3: Application du coefficient de Spearman
Rs= -0,9 t = -3,576 |
|
Le tau de Kendall est un autre indicateur du caractère éventuellement significatif de la relation qui existe entre deux classements. Les n items sont tout d'abord rangés dans l'ordre conforme au premier classement. Puis pour tout couple d'items dont l'ordre dans le premier classement est concordant avec celui du second on attribue un score de + 1; dans le cas de discordance on attribue un score de - 1. S est la somme de ces scores sur l'ensemble des n(n - 1)/2 comparaisons possibles. Le tau de Kendall est alors :
Le test de ce coefficient s'effectue à l'aide de tables. Pour n > 10 une approximation par la loi normale est envisageable . |
|
Exemple: Le tableau 2.4. donne une application du t de Kendall pour l'analyse des résultats de la question précédente pour l'étude CAMIP. On constate un t de - 0,8 entre les choix de la direction et ceux de l'individu n° 124. En effet sur un ensemble de 10 comparaisons possibles, une seule est concordante et neuf sont discordantes. Tableau 4: Application du tau de Kendall
Nb. combinaisons = n(n - 1)/2= 10 Tau de Kendall = - 0.8 |