Modele lineaire general
De même, un modèle qui prédit une probabilité de faire un choix Oui/non (une variable Bernoulli) est encore moins approprié comme modèle de réponse linéaire, puisque les probabilités sont limitées aux deux extrémités (elles doivent être entre 0 et 1). Imaginez, par exemple, un modèle qui prédit la probabilité d`une personne donnée allant à la plage en fonction de la température. Un modèle raisonnable pourrait prédire, par exemple, qu`un changement de 10 degrés rend une personne deux fois plus ou moins susceptible d`aller à la plage. Mais que signifie «deux fois plus probable» en termes de probabilité? Il ne peut pas littéralement signifier doubler la valeur de probabilité (par exemple, 50% devient 100%, 75% devient 150%, etc.). Au contraire, ce sont les cotes qui doublaient: de 2:1 cotes, à 4:1 cotes, à 8:1 cotes, etc. Un tel modèle est un log-Odds ou un modèle logistique. Voici des exemples de composants GLM pour les modèles que nous connaissons déjà, tels que la régression linéaire, et pour certains des modèles que nous couvriront dans cette classe, tels que la régression logistique et les modèles log-linéaires. Par exemple, imaginez que nous voulons surveiller l`amélioration des compétences en algèbre des étudiants sur deux mois d`enseignement. Un test d`algèbre normalisé est administré après un mois (niveau 1 du facteur de mesures répétées), et un test comparable est administré après deux mois (niveau 2 du facteur de mesures répétées).
Ainsi, le facteur de mesures répétées (temps) a 2 niveaux. Maintenant, supposons que les scores pour les 2 tests d`algèbre (c.-à-d., les valeurs sur les variables Y1 et Y2 au moment 1 et le temps 2, respectivement) sont transformés en scores sur une nouvelle variable composite (c.-à-d., valeurs sur le T1), en utilisant la transformation linéaire il y a infiniment beaucoup inverses généralisées d`une matrice X`X de rang non complet, et donc infiniment nombreuses solutions aux équations normales. Cela peut rendre difficile de comprendre la nature des relations des variables prédictibles aux réponses sur les variables dépendantes, car les coefficients de régression peuvent changer en fonction de l`inverse généralisé particulier choisi pour résoudre le équations normales. Il n`est pas cause de consterne, cependant, en raison des propriétés d`invariance de nombreux résultats obtenus en utilisant le modèle linéaire général. Jusqu`à présent, nous nous sommes focés sur la description des interactions ou des associations entre deux ou trois variables catégorielles principalement via des statistiques sommaires simples et avec des tests de signification. Les modèles peuvent gérer des situations plus compliquées et analyser les effets simultanés de plusieurs variables, y compris des mélanges de variables catégorielles et continues. Par exemple, les statistiques du jour de Breslow ne fonctionnent que pour les tables 2 × 2 × K, tandis que les modèles log-linéaires nous permettront de tester des associations homogènes dans I × J × K et des tables de dimensions supérieures. Nous nous concentrerons sur une classe spéciale de modèles connus sous le nom de modèles linéaires généralisés (GLIMs ou GLMs dans Agresti).
Test du modèle entier. Compte tenu du modèle SS et de l`erreur SS, nous pouvons effectuer un test que tous les coefficients de régression pour les variables X (B1 à BK) sont nuls. Ce test équivaut à une comparaison de l`ajustement de la surface de régression définie par les valeurs prédites (calculées à partir de l`équation de régression du modèle entier) à l`ajustement de la surface de régression définie uniquement par la moyenne variable dépendante (calculée à partir de la équation de régression réduite contenant uniquement l`interception). En supposant que X`X est de rang complet, l`hypothèse du modèle entier signifie carré le cas binomiale peut être facilement étendu pour permettre une distribution multinomiale comme réponse (également, un modèle linéaire généralisé pour les dénombrements, avec un total contraint). Il y a deux façons de procéder: ici, Y, X, b et e sont comme décrit pour le modèle de régression multivariée et M est une matrice de m X s de coefficients définissant la transformation linéaire s des variables dépendantes.