Préparation des données

Les 24390 clients et prospects de la base de données sont organisés en deux échantillons, les premiers deux tiers forment l'échantillon d'estimation sur lequel les modèles seront calibres et le dernier tiers est mis à part comme l'échantillon test pour vérifier la performance prédictive des modèles

Listing 1

  1. brabant <- read.table("C:/Documents and Settings/calciu/Mes documents/Collaborations/salerno/book_md/Brabant/Briant/Etude_tot/brabant24390.txt", header=TRUE, sep="", na.strings="NA", dec=".", strip.white=TRUE)
  2. samp<-c(1:(nrow(brabant)*2/3)) # premiers 2/3 de la BD clients
  3. dt<-brabant[samp,] # échantillon d'estimation
  4. attach(dt)
  5. table(if_cde97) # répondants et non-répondant dans l'échantillon d'estimation
  6. mean(ca97[which(ca97>0)]) # montant moyen de commandes (échantillon d'estimation)
  7. dt<-brabant[-samp,] # echantillons de validation
  8. attach(dt)
  9. table(if_cde97) # répondants et non-répondant dans l'échantillon de validation
  10. mean(ca97[which(ca97>0)]) # montant moyen de commandes (échantillon de validation)
  11. mean(brabant$ca97[which(brabant$ca97>0)]) # montant moyen de commandes (BD clients)

Tableau 1 - Descriptif de la BD clients et des échantillons d'estimation et validation

  Taille Répondants Non
Répondants
Taux de réponse Montant moyen
Échantillon d'estimation 16260 5534 10726 34,0% 378.37F
Échantillon de validation 8130 2808 5322 34,5% 384.91F
Total 24390 8342 16048 34,2% 380.57F

‘‘Conventionellement’’ le nombre d'acheteurs suggéré dans la littérature comme minimum pour calibrer un modèle significatif doit dépasser 500 acheteurs, voir même s'approcher de 1.000—(voir par exemple Nash 1993, p. 143).

Michel Calciu et Francis Salerno ; - Notes de cours à l'IAE de Lille 2004 - -