Presentation

La regression linéaire considère que la variable dépendente est observé dans tout les cas, mais en réalité en marketing direct elle est observé uniquement pour les répondants. On observe le montant de la commande uniquèement pour les gens qui ont commande suit à une campagne. Il n'y a pas d'observations sur le montant d'achat pour ceux qui n'ont pas commandé. On dit que la variable de réponse est "censuré" à gauche. La variable prend donc une valeur positive pour les répondants et la valeur zéro pour les nonrépondants et ne satisfait donc pas la condition d'être normalement distribué, comme l'exige la regression linéaire.

Le modèl Tobit est un modèle de regression qui prend en compte de manière explicite le faite que la valeur de la réponse est observée uniquement pour les répondants, qui sont une petite minorité dans la population dans les application de database marketing. Les résultats d'un modèle tobit sont exprimé sous forme de valeur de choix continue, ici en termes de montants des comandes par client.

Listing 9

  1. # Tobit regression
  2. library(survival)
  3. dt<-brabant[samp,]
  4. attach(dt)
  5. rfm.tobit<-survreg(Surv(ca97, ca97>0, type="left") ~r6 + rr6 + f6m + m6m + mm6m + caa96 + cda96, dist='gaussian')
  6. dt<-brabant[-samp,]
  7. attach(dt)
  8. predictv<-predict(rfm.tobit, type="response", newdata=dt)
  9. #predictv<-predictv+rfm.tobit$scale # a verifier et justifier
  10. predictv<-ifelse(predictv>0,predictv,0)
  11. predictv<-predictv + 110 # a verifier et justifier
  12. names(predictv)<-1:length(predictv)
  13. gc<-gainchart_cont(predictv,ca97)
  14. par(mfrow=c(2,2))
  15. plot_gaincharts_cont(gc)

Analyse:

La formule qui exprime la relation entre le montant d'achat (vu comme une valeur censuré à gauche dans le sens des modèles de survie) et les variables rfm est utilisé pour calibrer un modèle de type tobit dans le cadre de la procédure de régression de survie(survreg). La distribution des réponses (montant), y compris des réponses censurées est considéré normale (gaussiene).

Pour verifier les performances predictives et economiques du modèle calibré sur deux tiers des clients on effectue les calculs prédictifs sur le tiers complémentair et on calcule le tableau des gains (gainchart). Comme les valeurs censurées sont supposées négatives et majoritaires, le valeures prédites sont en grand partie négatives (ici on les a décalé en r'ajoutant un facteur d'echelle !! ... )

Michel Calciu et Francis Salerno ; - Notes de cours à l'IAE de Lille 2004 - -