Pour obtenir un modèle linéaire - A propos de SPSS Inc., an IBM Company

Cette fonction nécessite l’option Statistiques de base.

A partir des menus, sélectionnez :

Analyse > Régression > Modèles linéaires automatiques...

E Vérifiez qu’il existe au moins une cible et une entrée.

E Cliquez surOptions de créationpour spécifier les paramètres optionnels de création et de modèle.

E Cliquez surOptions du modèlepour enregistrer les scores dans l’ensemble de données actif et exporter le modèle vers unfichier externe.

E Cliquez surExécuterpour exécuter la procédure et créer les objets du modèle.

L’alerte du niveau de mesure apparaît lorsque le niveau de mesure d’une ou plusieurs variables (champs) de l’ensemble de données est inconnu. Le niveau de mesure ayant une incidence sur le calcul des résultats de cette procédure, toutes les variables doivent avoir un niveau de mesure défini.

Figure 15-2

Alerte du niveau de mesure

Analysez les données.Lit les données dans l’ensemble de données actifs et attribue le niveau de mesure par défaut à tous les champs ayant un niveau de mesure inconnu. Si l’ensemble de données est important, cette action peut prendre un certain temps.

Attribuer manuellement. Ouvre une boîte de dialogue qui répertorie tous les champs ayant un niveau de mesure inconnu. Vous pouvez utiliser cette boîte de dialogue pour attribuer un niveau de mesure à ces champs. Vous pouvez également attribuer un niveau de mesure dans l’affichage des variables de l’éditeur de données.

Le niveau de mesure étant important pour cette procédure, vous ne pouvez pas accéder à la boîte de dialogue d’exécution de cette procédure avant que tous les champs n’aient des niveaux de mesure définis.

85 Modèles linéaires

Objectifs

Quel est votre objectif principal ?

Créer un modèle standard. Cette méthode permet de créer un modèle unique afin de prédire la cible à l’aide de valeurs prédites. En général, les modèles standards sont plus faciles à interpréter et peuvent être plus rapidement évalués que des ensembles de données boostés, de bagging ou de grande taille.

Améliorer la précision d’un modèle (boosting). Cette méthode permet de créer un modèle d’ensemble à l’aide du boosting, qui génère une séquence de modèles afin d’obtenir des prédictions plus précises. La construction et l’évaluation peuvent prendre davantage de temps pour des ensembles que pour un modèle standard.

Améliorer la stabilité du modèle (bagging). Cette méthode permet de créer un modèle d’ensemble à l’aide du bagging (agrégation par bootstrap), qui génère plusieurs modèles afin d’obtenir des prédictions plusfiables. La construction et l’évaluation peuvent prendre davantage de temps pour des ensembles que pour un modèle standard.

Créer un modèle pour des ensembles de données très volumineux (nécessite IBM® SPSS®

Statistics Server). Cette méthode permet de créer un modèle d’ensemble en scindant l’ensemble de données en blocs de données distincts. Choisissez cette option si votre ensemble de données est trop important pour que vous puissiez créer l’un des modèles ci-dessus, ou pour la construction d’un modèle incrémental. La construction de cette option peut être moins longue, mais l’obtention des résultats peut être plus longue qu’avec un modèle standard. Cette option nécessite une connexion à SPSS Statistics Server .

Bases

Figure 15-3 Paramètres de base

Préparer automatiquement les données.Cette option permet à la procédure de transformer la cible et les variables prédites en interne afin de maximiser la puissance de prédiction du modèle ; toutes les transformations sont enregistrées avec le modèle et appliquées aux nouvelles données pour

Chapitre 15

l’évaluation. Les versions originales de champs transformés sont exclues du modèle. Par défaut, les préparations automatiques de données suivantes sont réalisées.

Gestion de la date et de l’heure. Chaque variable prédite de date est transformée en une nouvelle variable prédite continue qui contient la durée écoulée depuis une date de référence (01/01/1970). Chaque variable prédite d’heure est transformée en une nouvelle variable prédite continue qui contient la durée écoulée depuis une heure de référence (00:00:00).

Régler le niveau de mesure.Les variables prédites continues ayant moins de 5 valeurs distinctes sont reconverties en variables prédites ordinales. Les variables prédites ordinales ayant plus de 10 valeurs distinctes sont reconverties en variables prédites continues.

Gestion des valeurs éloignées.Les valeurs de variables prédites continues qui se trouvent au-delà d’une valeur de césure (écart-type de 3 par rapport à la moyenne) sont définies sur la valeur de césure.

Gestion des valeurs manquantes. Les valeurs manquantes de variables prédites nominales sont remplacées par le mode de la partition d’apprentissage. Les valeurs manquantes de variables prédites ordinales sont remplacées par la médiane de la partition d’apprentissage.

Les valeurs manquantes de variables prédites continues sont remplacées par la moyenne de la partition d’apprentissage.

Fusion supervisée.Ceci crée un modèle plus petit en réduisant le nombre de champs à traiter en association avec la cible. Les modalités similaires sont identifiées en fonction de la relation entre l’entrée et la cible. Les modalités ne différant pas de manière significative (c’est-à-dire ayant une valeur p supérieure à 0,1), sont fusionnées. Si toutes les catégories sont fusionnées en une seule, les versions d’origine et dérivées du champ sont exclues du modèle car elles n’ont pas de valeur de variable prédite.

Niveau de confiance. Il s’agit du niveau de confiance utilisé pour calculer les estimations d’intervalle des coefficients de modèle dans la vueCoefficients. Définissez une valeur supérieure à 0 et inférieure à 100. La valeur par défaut est 95.

87 Modèles linéaires

In document A propos de SPSS Inc., an IBM Company (Pldal 98-101)