|
Les traitements bi-variés ont pour objet de mettre en évidence les relations éventuelles qui existent entre deux variables analysées simultanément. Dans la plupart des cas l'analyste cherchera à expliquer une des deux variables - dite variable à expliquer (Y) - à l'aide de l'autre variable - dite variable explicative (X). Expliquer une variable à l'aide d'une autre revient à repérer dans quelle mesure les différentes valeurs que peut prendre la variable explicative ont une conséquence sur les valeurs prises par la variable à expliquer. |
|
Exemple:
Le fait de changer de conditionnement a-t-il un
effet sur le niveau des ventes d'un produit donné ? Le
conditionnement joue ici le rôle de variable explicative et le
niveau des ventes de variable à expliquer Comme dans le cas des traitements uni-variés, le mode d'analyse utilisable va dépendre de la nature des variables étudiées: quantitatives, ordinales ou nominales. Ces analyses seront à nouveau présentées ici dans le cadre des études marketing par questionnaires: il s'agira donc du traitement des tri-croisés. |
|
Dans la mesure où une question peut relever fondamentalement de trois niveaux de mesure différents, on comptera neuf types de croisements possibles entre les questions et Les plus fréquentes sont présentés ci-dessous. 2 - quantitatif x quantitatif: étude des relations entre deux séries de n chiffres s'il y a n questionnaires. Ces deux séries de chiffres n'apparaissent généralement pas explicitement. Leurs relations sont matérialisées par différents indicateurs. Exemple: Dans le questionnaire CAMIP, étude des relations entre le proportion des achats par catalogue (question 1 ) et le revenu de la personne (question 11). L'appartenance à une catégorie de revenu plus élevé entraîne-t-elle une plus grande proportion des achats par catalogue ? 2 - nominal x nominal : croisement le plus fréquent qui se traduit par la création d'un tableau de contingence où, en ligne, figurant les modalités de la variable à expliquer et en colonne, celles de la variable explicative. Lorsque le tableau de contingence est traduit en pourcentages de colonne, pour chaque modalité de la variable explicative apparaîtra une distribution de fréquences des modalités de la variable à expliquer. Exemple: Croisement entre la question 22 sur la préférence pour un type de magasin ou une modalité d'achat et la question 26: le fait de préférer d'acheter par catalogue ou par une autre modalité, dépende-t-elle de la situation civile du répondant? 3 - ordinal x ordinal : mise en correspondance de deux classements au niveau de chaque individu interrogé ou sur l'ensemble de l'échantillon si une procédure d'agrégation des rangs a été utilisé. Exemple: Croisement entre l'ordre de préférence pour les différentes catégories d'équipement de bureau (micro-ordinateurs, imprimantes, scanners..) exprimé par chaque répondant et un classement a priori correspondant à l'importance accordé à chaque catégorie d'équipement dans le catalogue (exprimé par exemple en nombre de pages). 4 - quantitatif x nominal : correspond à un tri-à-plat de la variable quantitative pour chacune des modalités de la variable nominale qui joue le rôle de variable explicative. Exemple: Croisement entre une question ouverte concernant le nombre d'objets achetés par catalogue et la question 26. La situation civile influence-t-elle le nombre d'objets achetés par catalogue? 5 - ordinal x nominal : repérage des rangs donnés à la question Qi pour différentes classes d'une variable Qj nominale explicative. Exemple: Croisement entre un classement de préférence et la question 26. Le fait de relever d'un statut familial donné entraîne-t-il des préférences pour une catégorie de produit bureautiques ? |
|
Le tableau 1. donne les principaux tests utilisables dans l'analyse des tris croisés. Seuls les tests correspondant aux croisements les plus fréquents y sont indiqués. Tableau 1: Tests des tris croisés selon la nature des variables
En colonne figurant les variables à expliquer et en ligne les variables explicatives. |
|
Le croisement de deux variables quantitatives peut être effectué dans des circonstances très variées :
|
|
Supposons que dans le cadre de l'étude CAMIP, on a ajouté une question sur la nombre de disquettes d'ordinateur achetées par an qu'on croise avec la question 27(le fait d'être homme ou femme) a fait apparaître les résultats suivants: les hommes (A): Na = 155; nombre moyen de disquettes = 10, avec Sa2 = 64; les femmes (B): Nb = 75; Xb = 3, Sb = 25. La variance des différences de moyennes est donnée par: 64/155 + 25/75 = 0,74. L'écart type de D est alors = 0,86. L'hypothèse nulle pour laquelle il n'existe pas de différence dans les quantités de disquettes achetées par les homme et par les femmes peut être rejetée, puisque z = (10 - 3)/0,86 est supérieur à 1 96
|
|
- Pour des petits échantillons (Na et Nb < 30), on utilisera le test de Student. Dans la mesure où la variance des Xa et des Xb est estimée la variance de la distribution des différences de moyennes est approchée par l'expression : s D2 = [(Na-1)sa2 + (Nb-1) sb2] /(Na + Nb - 2)(1/Na + 1/Nb) (20) La différence D suit alors une loi de Student à (Na + Nb - 2) degrés de liberté.
|
|
Quand plus de deux populations sont concernés, on aura recours au test F. Si l'hypothèse de normalité évoquée plus haut n'est pas respecté on pourra employer le test de Kruskal-Wallis.
|
|
Dans le cas d'échantillons appariés, à chaque individu d'un premier groupe est associé un individu du second groupe (le groupe-témoin) offrant les mêmes caractéristiques. Pour chaque couple i de deux individus appariés, une différence est calculée. Sur l'ensemble n des couples étudiés, la différence moyenne est donnée par et la variance des différences est alors On montre que est distribué selon une loi normale de moyenne et de variance (21)
|
|
Les relations entre deux variables quantitatives sur la même population sont généralement analysées à l'aide du coefficient de corrélation de Pearson qui sera étudié au cours du chapitre portant sur la régression linéaire
|
|
Dans le chapitre précédent on a vu une application du test du Khi-Deux pour l'évaluation de la qualité de l'ajustement d'une distribution de fréquences observées à une distribution théorique. De façon plus générale, ce test est employé pour analyser les tableaux de contingence et repérer le caractère statistiquement significatif de l'association entre deux variables nominales. La statistique du est donnée, en ce qui concerne les tableaux de contingence, par la formule suivante: (22) où Nij = nombre d'observations dans la case ij; Qij = nombre théorique associé à la case ij = (Total de la ligne i).(Total de la colonne j)/Nombre total d'observations. Pour un tableau comportant C colonnes et L lignes, la valeur ainsi calculée est comparée à la valeur critique lue sur la table du Khi-Deux pour un seuil de confiance , et pour un nombre de degrés de liberté égal à (C - 1)(L - 1) . La table du Khi-Deux donne la distribution de probabilité des valeurs de obtenues dans un tableau lorsque l'hypothèse nulle est vraie, c'est-à-dire dans le cas d'indépendance entre les deux variables étudiées. Par exemple, au seuil de 5 % et pour deux degrés de liberté, le lu sur la table vaut 5,99 : ceci veut dire que sous Ho il n'y a que 5 % de tableaux à deux degrés de liberté pour lesquels on pourrait calculer un x2 supérieur ou égal à 5,99. Si le calculé est plus fort, il y a donc moins de cinq chances sur cent de se tromper en rejetant Ho. |
|
Exemple Le tableau 2 a donné les résultats d'un éventuel résultat du croisement des questions 3 (le fait d'avoir commandé) et 27 (être homme où femme). Le tableau 2b fournit les valeurs théoriques: par exemple, pour la case 1, la valeur 53,91 = (80)(155)/230. Les différences () apparaissent sur le tableau 2c, et le associé à chaque case, sur le tableau 2d. Au total, le calculé s'élève à 28,64: il dépasse le %2 critique (5,99). La qualité d'abonné est donc liée significativement au motif du voyage. Tableau 2.: Application du Khi-Deux à un tableau de contingence a) Croisement question Q3 et Q27: valeurs observées
b) Valeurs théoriques
c) Différences entre valeurs observées et valeurs théoriques
d) Croisement questions Q3 et Q27: calcul du Khi-Deux
Khi-Deux calculé: 28,64 nombre ddl: 2 Khi-Deux critique: 5,99 risque: 5 % Le test est fourni couramment par les logiciels; il souffre cependant de certaines limitations: - l'effectif sur lequel porte le tableau doit être suffisamment important on ne doit pas trouver plus de 20 % de cases avec un effectif inférieur à 5 ; - le est calculé à partir des valeurs absolues; il est donc très sensible à la taille des effectifs considérés; le permet de repérer le caractère significatif de la relation entre les deux variables, mais pas l'intensité de cette relation.
|
|
Plusieurs coefficients peuvent repérer le degré d'association entre les deux variables étudiées. Pour les tableaux de contingence de taille 2 x 2, on peut déduire du , un coefficient d'association F, tel que : F = [/n]l/2 (23) F présente l'avantage d'être indépendant de la taille de l'échantillon, et de varier entre 0 et 1 . Pour les tableaux plus grands, c'est un coefficient de contingence C qui sera utilisé : C = [/( + n)]l/2 (24) Plus C est élevé et plus forte est l'association entre les deux variables concernées. Le minimum de ce coefficient est 0 (indépendance totale des variables avec = 0). Par contre, le maximum ne peut jamais s'élever jusqu'à 1. Dans le cas d'un tableau 2 x 2, on montre, par exemple, que le maximum est de = 0,707.
|
|
Lorsque l'on considère deux modalités de la variable explicative, les effectifs associés à une modalité donnée de la variable à expliquer peuvent être traduits en fréquence relative. Il s'agit de vérifier dans quelle mesure la différence de fréquences observées est significative. Soient Pa la fréquence relative associée à la modalité A (effectif Na) de la variable explicative et Pb celle qui est associée à la modalité B (effectif Nb) La variance des différences de proportions est donnée par où pa etpb sont les proportions réelles. Dans la mesure où les véritables fréquences pa et pb ne sont pas connues, on utilisera comme estimateur de l'expression où Pc est la fréquence moyenne observée sur l'ensemble des deux groupes avec . Les intervalles de confiance et le test des différences de proportions s'obtiennent dans les mêmes conditions qu'en ce qui concerne les moyennes. |
|
Exemples: Avec le croisement des questions 3 et 27 du questionnaire CAMIP,
il apparaît que sur 155 hommes, 70 n'ont jamais commandé,
soit 45,16 % et seulement 10 sur 75 femmes , soit 13,33 %
|
|
Ce test permet de repérer le caractère significatif de la relation qui existe entre deux classements. Il est également utilisé pour montrer la relation éventuelle qui existe entre deux variables quantitatives. Soit n le nombre d'items à classer; Xi est le rang de l'item i dans un premier classement et Yi son rang dans un second. est la différence de rangs observés entre les deux classements. Le coefficient de corrélation des rangs de Spearman a pour expression : (25) Plus Rs est proche de 1 et plus les deux classements sont proches; à la limite, ils sont complètement identiques si Rs = 1. Au contraire, plus Rs est proche de 0 et plus les deux classements sont indépendants. La signification statistique de Rs obtenue peut être testée à partir de la relation: (26) qui suit une loi de Student à n - 2 degrés de liberté |
|
Exemple: Croisement entre l'ordre de préférence pour les
différentes catégories d'équipement de bureau
(micro-ordinateurs, imprimantes, scanners..) exprimé par
chaque répondant et un classement a priori correspondant à
l'importance accordé à chaque catégorie
d'équipement dans le catalogue (exprimé par exemple en
nombre de pages).Le tableau 2.3. montre un exemple de calcul du
coefficient de Spearman avec le traitement d'une question concernant
le classement d'intérêt d'achat pour les catégories
de produits (A - micro-ordinateurs, B - imprimantes, C - scanners et
D fax) par l'individu 124. On constate une corrélation R. = 1
- (6)(38)/(5)(25-1)= - 0,9 entre les choix de la direction et ceux de
l'individu n° 128. Cette corrélation est significative
puisque t = (-0,9)( )/ ( = - 3,576. Cette valeur est supérieure
au t de Student pour 3 degrés de liberté et un seuil de
confiance de 95 % (3,182). Tableau 3: Application du coefficient de Spearman
Rs= -0,9 t = -3,576 |
|
Le tau de Kendall est un autre indicateur du caractère éventuellement significatif de la relation qui existe entre deux classements. Les n items sont tout d'abord rangés dans l'ordre conforme au premier classement. Puis pour tout couple d'items dont l'ordre dans le premier classement est concordant avec celui du second on attribue un score de + 1; dans le cas de discordance on attribue un score de - 1. S est la somme de ces scores sur l'ensemble des n(n - 1)/2 comparaisons possibles. Le tau de Kendall est alors : (27) Le test de ce coefficient s'effectue à l'aide de tables. Pour n > 10 une approximation par la loi normale est envisageable . |
|
Exemple: Le tableau 2.4. donne une application du t de Kendall pour l'analyse des résultats de la question précédente pour l'étude CAMIP. On constate un t de - 0,8 entre les choix de la direction et ceux de l'individu n° 124. En effet sur un ensemble de 10 comparaisons possibles, une seule est concordante et neuf sont discordantes. Tableau 4: Application du tau de Kendall
Nb. combinaisons = n(n - 1)/2= 10 Tau de Kendall = - 0.8 |