Presentation
Comme dans la régression linéaire le modèle Tobit suppose que la variable de réponse peut prendre toute valeur, même des valeurs négatives mais comme ces dernieres ne sont pas disponibles car il n'y a pas des observations pour les non-répondants elles sont censurées et substitués par la valeur zéro. Cela n'est pas très réaliste car en marketing direct les réponses égales à zéro survienent parceque certains clients choisissent de décliner l'offre et non pas parceque la réponse était négative et par conséquence censurée à zéro. Pour subvenir à ce problème que présente le modèle Tobit une solution alternative est d'estimer une répons continue en deux étapes en utilisant le modèle à deux niveaux de Heckman (1979).
Dans un première étape on applique un modèle de choix binaire (ex. logistique) à toutes à l'échantillon d'estimation.
Ensuite un modèle linéaire est estimé uniquement au niveau de répondants pour estimer la réponse (conditionelle) espéré par client à condition que celui-ci soit un répondant
Ensuite un modèle la réponse (inconditionnelle) espérée par client est obtenue en multipliant la réponse conditionnelle par la probabilité d'achat. Le modèle à deux étapes souffre du biaïs de séléctions car il est basé uniquement sur les répondant et ne constitue donc pas un échantillon aléatoire de la population.
Listing 10
- # Two stage regression
- dt<-brabant[samp,]
- dt$logitrate=predict(rfm.logit, type="response")
- dt<-dt[which(ca97>0),]
- attach(dt)
- rfm.2stage<-lm(ca97 ~r6 + rr6 + f6m + m6m + mm6m + caa96 + cda96 + logitrate)
- dt<-brabant[-samp,]
- dt$logitrate=predict(rfm.logit, type="response", newdata=dt)
- attach(dt)
- predictv<-predict(rfm.2stage, newdata=dt)*predict(rfm.logit, type="response", newdata=dt)
- names(predictv)<-1:length(predictv)
- gc<-gainchart_cont(predictv,ca97)
- par(mfrow=c(2,2))
- plot_gaincharts_cont(gc)
Analyse:
La probabilité d'achat donnée par le modèle logit estimé auparavant, est calculée pour chaque individu présent dans l'échantillon d'estimation. Elle servira comme variable explicative supplémentaire dans la regression effectuée en deuxieme etape.
La formule qui exprime la relation entre le montant d'achat (ca97), les variables rfm auxquelles et la probabilité d'achat (estimé dans la premiere étape) est utilisé pour calibrer un modèle linéaire dans le cadre de la procédure de régression linéaire(LM).
Pour verifier les performances predictives et economiques du modèle calibré sur deux tiers des clients on effectue les calculs prédictifs sur le tiers complémentair et on calcule le tableau des gains (gainchart).
Loading required package: tcltk
Loading required package: lattice
Loading required package: foreign
Loading required package: abind
Loading required package: lmtest
Loading required package: multcomp
Loading required package: relimp
Loading required package: effects
Loading required package: rgl
Loading required package: mgcv