Choix du modèle - A propos de SPSS Inc., an IBM Company

Figure 15-4

Paramètres du choix du modèle

Méthodes de choix du modèle. Choisissez l’une des méthodes de sélection du modèle (détails ci-dessous) ouAucun, qui entre simplement toutes les variables prédites disponibles en tant que termes du modèle des effets principaux. Le modèlePas à pas ascendantest utilisé par défaut.

Choix de la méthode Pas à pas ascendante. Elle commence sans effet dans le modèle et ajoute et supprime des effets une étape à la fois jusqu’à ce qu’aucune autre ne puisse être ajoutée ou supprimée en fonction des critères pas à pas.

Critères d’entrée/suppression.Il s’agit des statistiques utilisées pour savoir si un effet doit être ajouté ou supprimé du modèle.Critère d’information (AICC)est basé sur la vraisemblance du modèle fourni à l’ensemble d’apprentissage, et est ajusté afin de pénaliser des modèles trop complexes. Statistiques Fest basé sur un test statistique de l’amélioration dans l’erreur d’un modèle. R-deux ajustéest basé sur l’adéquation de l’ensemble d’apprentissage, et est ajusté afin de pénaliser des modèles trop complexes. LeCritère de prévention du surajustement (ASE) est basé sur l’adéquation (carré de l’erreur moyenne, ou ASE) de l’ensemble de prévention de surajustement. L’ensemble de prévention de surajustement est un sous-échantillon aléatoire d’environ 30 % de l’ensemble de données original qui n’est pas utilisé pour former le modèle.

Chapitre 15

Si un autre critère queStatistiques Fest sélectionné, à chaque étape l’effet qui correspond à l’accroissement positif le plus important dans le critère est ajouté au modèle. Tous les effets du modèle qui correspondent à une diminution du critère sont supprimés.

SiStatistiques Fest sélectionné en tant que critère, à chaque étape l’effet ayant la plus petite valeurpinférieure au seuil spécifié,Inclure les effets avec des valeurs p inférieures à, est ajouté au modèle. La valeur par défaut est 0,05. Tous les effets du modèle ayant une valeur psupérieure au seuil spécifié,Supprimer les effets ayant des valeurs p supérieures à, sont supprimés. La valeur par défaut est 0.10.

Personnaliser le nombre maximum d’effets dans le modèle final. Par défaut, tous les effets disponibles peuvent être entrés dans le modèle. Si l’algorithme pas à pas se termine à une étape avec le nombre spécifié d’effets, l’algorithme s’arrête à l’ensemble d’effets en cours.

Personnaliser le nombre maximal d’étapes. L’algorithme pas à pas s’arrête après un certain nombre d’étapes. Par défaut, il s’agit de 3 fois le nombre d’effets disponibles. Vous pouvez également spécifier un nombre entier positif maximum d’étapes.

Sélection des meilleurs sous-ensembles.Ceci permet de vérifier “tous les modèles possibles” ou au moins un sous-ensemble plus important des modèles possibles qu’en pas à pas ascendant, pour choisir le meilleur en fonction du critère des meilleurs sous-ensembles. Critère d’information (AICC)est basé sur la vraisemblance du modèle fourni à l’ensemble d’apprentissage, et est ajusté afin de pénaliser des modèles trop complexes. R-deux ajustéest basé sur l’adéquation de l’ensemble d’apprentissage, et est ajusté afin de pénaliser des modèles trop complexes. LeCritère de prévention du surajustement (ASE)est basé sur l’adéquation (carré de l’erreur moyenne, ou ASE) de l’ensemble de prévention de surajustement. L’ensemble de prévention de surajustement est un sous-échantillon aléatoire d’environ 30 % de l’ensemble de données original qui n’est pas utilisé pour former le modèle.

Le modèle ayant la plus grande valeur de critère est sélectionné comme meilleur modèle.

Remarque : La sélection des meilleurs sous-ensembles demande plus de ressources de calcul que la sélection pas à pas ascendante. Lorsque la sélection des meilleurs sous-ensemble est effectuée en conjonction avec le boosting, le bagging ou le traitement d’ensembles très volumineux, elle peut être plus longue que la création d’un modèle standard à l’aide de la sélection pas à pas ascendante.

89 Modèles linéaires

Ensembles

Figure 15-5

Paramètres des ensembles

Ces paramètres déterminent le comportement d’assemblage qui se produit lors du boosting, du bagging ou lorsque que des ensembles volumineux de données sont requis dans les objectifs. Les options qui ne s’appliquent pas à l’objectif sélectionné sont ignorées.

Bagging et très grands ensembles de données. Lors de l’évaluation d’un ensemble, il s’agit de la règle utilisée pour combiner les valeurs prédites à partir des modèles de base pour calculer la valeur de score d’un ensemble.

Règles de combinaison par défaut pour les cibles continues. Des valeurs prédites d’ensemble pour des cibles continues peuvent être combinées à l’aide de la moyenne ou de la médiane des valeurs prédites à partir des modèles de base.

Veuillez noter que lorsque l’objectif consiste à améliorer la précision du modèle, les sélections de règles de combinaisons sont ignorées. Le boosting utilise toujours un vote majoritaire pondéré pour évaluer des cibles catégorielles et une médiane pondérée pour évaluer des cibles continues.

Boosting et bagging. Spécifiez le nombre de modèles de base à créer lorsque l’objectif est d’améliorer la précision ou la stabilité du modèle ; pour le bagging, il s’agit du nombre d’échantillons de bootstrap. Il doit s’agir d’un entier positif.

Chapitre 15

Avancé

Figure 15-6 Paramètres avancés

Dupliquer les résultats. Définir une valeur de départ aléatoire vous permet de dupliquer des analyses. Le générateur de nombres aléatoires est utilisé pour choisir les enregistrements de l’ensemble de prévention de surajustement. Spécifiez un entier ou cliquez surGénérer, ce qui crée un entier pseudo-aléatoire compris entre 1 et 2147483647, inclus. La valeur par défaut est 54752075.

In document A propos de SPSS Inc., an IBM Company (Pldal 101-104)