Présentation
La régression ordinale correspond à un modèle de choix discret ou les valeures qui représentent les multiples choix expriment un ordre ou une préférence.
Si on choisit le montant des commandes comme variable à expliquer, on peut transformer cette variable continue en variable discrète en ordonnant ses valeures dans des intervalles de choix mutuellement exclusifs et en attribuant à chaque intervalle une catégorie ordinale. Le modèle de régression ordinale peut être utilisé ensuite comme un proxy pour la régression linéaire (Levin et Zahavi, 1998, p.10). Si on se résume à seulement deux catégories ordinales: 0 pour les non-acheteurs et 1 pour les acheteurs, alors les prédicteurs qui résultent de la régression ordinales devraient être identiques à ceux de la régression logistique. En pratique on préférera d'utiliser plusieurs catégories de choix (0, 1, 2 3) affin d'obtenir des résultats plus nuancés.
Dans cet exemple les catégories de choix sont définies selon les critères évoqués dans le tableau 3.
Choix |
Montant |
Montant moyen |
0 |
0 |
0 |
1 |
1-249 |
168,10 |
2 |
250-499 |
335,13 |
3 |
500 et plus |
759,43 |
Listing 7
- # ordinal regression
- library(MASS)
- dt<-brabant[samp,]
- attach(dt)
- ord<-ifelse(ca97<1,0,ifelse(ca97<250,1,ifelse(ca97<450,2,3)))
- ordformula<-as.factor(ord) ~ r6 + rr6 + f6m + m6m + mm6m + caa96 + cda96
- rfm.ordreg<-polr(ordformula)
- dt<-brabant[-samp,]
- attach(dt)
- ord<-ifelse(ca97<1,0,ifelse(ca97<250,1,ifelse(ca97<450,2,3)))
- predictv<-predict(rfm.ordreg, type="prob", newdata=dt)
- rownames(predictv)<-1:nrow(predictv)
- gc<-gainchart_ord(predictv,ord)
- par(mfrow=c(2,2))
- plot_gaincharts_ord(gc)
Analyse:
A part d'estimer une probabilité de réponse générale par client la régression ordinale calcule aussi une probabilité de réponse pour chaque modalité de choix. Les coefficients des variables explicatives sont les mêmes pour toutes les modalités de choix. Le seul élément qui diffère est le terme constant dans l'équation de régression.
La formule qui exprime la relation entre les catégories ordinales (if_cde97) et les variables rfm est utilisé pour calibrer le modèle de regression ordinale à l'aide de la procédure proportional odds regression (polr).
Pour verifier les performances predictives et economiques modèle ordinal calibré sur deux tiers des clients on effectue les calculs prédictifs sur le tiers complémentair et on calcule le tableau des gains (gainchart).