Préparation des données
Les 24390 clients et prospects de la base de données sont organisés en deux échantillons, les premiers deux tiers forment l'échantillon d'estimation sur lequel les modèles seront calibres et le dernier tiers est mis à part comme l'échantillon test pour vérifier la performance prédictive des modèles
Listing 1
- brabant <- read.table("C:/Documents and Settings/calciu/Mes documents/Collaborations/salerno/book_md/Brabant/Briant/Etude_tot/brabant24390.txt", header=TRUE, sep="", na.strings="NA", dec=".", strip.white=TRUE)
- samp<-c(1:(nrow(brabant)*2/3)) # premiers 2/3 de la BD clients
- dt<-brabant[samp,] # échantillon d'estimation
- attach(dt)
- table(if_cde97) # répondants et non-répondant dans l'échantillon d'estimation
- mean(ca97[which(ca97>0)]) # montant moyen de commandes (échantillon d'estimation)
- dt<-brabant[-samp,] # echantillons de validation
- attach(dt)
- table(if_cde97) # répondants et non-répondant dans l'échantillon de validation
- mean(ca97[which(ca97>0)]) # montant moyen de commandes (échantillon de validation)
- mean(brabant$ca97[which(brabant$ca97>0)]) # montant moyen de commandes (BD clients)
Tableau 1 - Descriptif de la BD clients et des échantillons d'estimation et validation
Taille | Répondants | Non Répondants | Taux de réponse | Montant moyen | |
Échantillon d'estimation | 16260 | 5534 | 10726 | 34,0% | 378.37F |
Échantillon de validation | 8130 | 2808 | 5322 | 34,5% | 384.91F |
Total | 24390 | 8342 | 16048 | 34,2% | 380.57F |
‘‘Conventionellement’’ le nombre d'acheteurs suggéré dans la littérature comme minimum pour calibrer un modèle significatif doit dépasser 500 acheteurs, voir même s'approcher de 1.000—(voir par exemple Nash 1993, p. 143).