Exercices Sur Le Modèle De Régression Linéaire Simple

Transcription

ESSEC de TunisExercices sur le modèle de régression linéaire simpleExercice 1Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation des ménagesen euros pour un pays donné sur la période 1992-2001. [Pour les calculs, prendre 4 chiffres après la .089616.2110593.4511186.1112758.0913869.62On cherche à expliquer la consommation des ménages (C) par le revenu (R), soit :Ct α βRt utTravail à faire :(i)Tracer le nuage de points et i)Estimer la consommation autonome et la propension marginale à consommer et .En déduire les valeurs estimées de Ct.Calculer les résidus et vérifier la propriété selon laquelle la moyenne des résidus est nulle.Calculer l’estimateur de la variance de l’erreur.Tester la significativité de la pente.Construire l’intervalle de confiance au niveau de confiance de 95% pour le paramètre β.Calculer le coefficient de détermination et effectuer le test de Fisher permettant de déterminersi la régression est significative dans son ensemble.Ecrire et vérifier l’équation d’analyse de la variance. Interpréter.Après un travail minutieux, un étudiant de L1 FASE trouve le coefficient de corrélation linéaireentre Ct et Rt suivant rXY 0.99789619. Sans le moindre calcul, tester la significativité de cecoefficient. Argumenter.En 2002 et 2003, on prévoit respectivement 16800 et 17000 euros pour la valeur du revenu.Déterminer les valeurs prévues de la consommation pour ces deux années, ainsi quel’intervalle de prévision au niveau de confiance de 95%.Solution de l’exercice 1(i)Le graphique nuage de points est donné ci-dessous :15000100005000005000100001500020000

Ce graphique témoigne de l’existence d’une association linéaire positive, presque parfaite, entre laconsommation des ménages (Ct) par le revenu (Rt), ce qui autorise l’estimation de la relation les liant par laméthode des moindres ordinaires.(ii)Pour simplifier l’estimation de la consommation autonome ( ) et de la propension marginale àconsommer , posons ce qui suit :Yt Ct ; Xt Rt ; α β0 et β β1. Ce qui nous permet d’écrire le modèle donné dans l’exercice comme suit :Yt β0 β1Xt utA partir des calculs effectués dans le tableau ci-dessous, on a :Estimation de la propension marginale à consommer 0,78098Estimation de la consommation autonome – 9985,575 – 0,78098(11280) 1176,0896Le modèle estimé est par conséquent : 1176,0896 0,78098Xt.(iii)Voir tableau ci-dessous. Ces valeurs sont trouvées en remplaçant dans l’équation de la droite desmoindres : 1176,0896 0,78098Xt, pour chaque date, Xt par sa valeur.(iv)Voir tableau ci-dessous. Les résidus sont calculés d’après la formule et (v) L’estimateur de la variance de l’erreur est donnée par , connaissant n 10 et(voirtableau), on obtient : 20646,1728(vi) La pente ici est la propension marginale à consommer, soit . Le test de significativité de cecoefficient requiert son écart-type. Connaissant la variance de l’erreur, la variance de est calculée commesuit :Var ( ) 0,0003 0,0179Par conséquent son ratio de Student est : Puisque(vii) 43,5352 ttablela pentet0.025 ; 8 2.306.est statistiquement significative.L’intervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramètre β1 estconstruire comme suit :I [ – (t0.025 ; 8); (t0.025 ; 8) ]En faisant les remplacements nécessaires, on trouve : I [0,7396 ;0,8224]

Le coefficient de détermination R2 peut être calculé par la formule (les valeurs viennent du tableauci-dessous) :(viii)R2 0,9958Connaissant le t de Student de la pente, la statistique de Fisher peut se calculer comme suit : (43,5352)2 1895,3136F F [1 ; 8] 5, 32. Puisque F FtableRH0, la régression est significative dans sonensemble.(ix)L’équation d’analyse de la variance est :SCT SCE SCR 39296098,1837 39130928, 8011 165169, 3826(x) Nous savons que dans un modèle linéaire simple, accepter la significativité de la pente revient àaccepter celle du coefficient de corrélation linéaire. La pentenaturellement.étant significative, le rXY l’est aussi(xi) La prévision ponctuelle ne pose aucun problème. La prévision par intervalle requiert l’estimation del’écart-type de l’erreur de prévision. Elle est donnée par :Yn hI (t0.025 ; 8)où En effectuant les remplacements nécessaires, au niveau de confiance de 95% (au seuil de 5%), on a les résultatssuivants :Prévision ponctuelle2002 1176,0896 0,78098(16800) 14296,59982003 1176,0896 0,78098(17000) 14452,7963Prévision par intervalleYn h [13949,0697 ; 14644,1299]Yn hLe tableau récapitulant tous les calculs est repris ci-dessous.[14105,2657 ; 14800,3269]

,1837039130928,8011 n 10 ;et 9985,575 11280Exercice 2Soit le modèle linéaire Yt β0 β1Xt ut. Où Yt représente la quantité offerte de pommes et Xt le prix.On donne les informations suivantes : 5 et 3.Après estimation, on a la droite de régression suivante : Xt. Connaissant le couple (Y 2.5 ; X 2) par lequel passe cette droite de régression, trouveret.Solution de l’exercice 2Connaissant le couple (Y 2.5 ; X 2) et le centre de gravité du nuage de points ( 5 ;après :YX532.52 3), on peut reproduire la droite des moindres carrés de cette estimation comme ci-

5,554,543,532,521,510,500123En mesurant la pente de cette droite, on trouve la penteConnaissant la pente et les deux moyenneset, 4 2,5.est calculé comme suit : 5 – (2,5)3 – 2,5Et le modèle estimé (équation de la droite des MCO) est : – 2,5 2,5XtExercice 3Soit un modèle linéaire simple : Yt β0 β0Xt utOn donne les informations suivantes : YX 184500 Y2 26350 X2 1400000 60 400n 7Travail demandé :-Estimer les coefficients du modèleEvaluer la qualité de cet ajustementTester la significativité globale du modèleSolution de l’exercice 3En fonction des données en présence, les formules suivantes seront utilisées pour répondre aux trois questionsposées : R2 F et –Après calcul, sachant que YX XY, on a les résultats suivants : 0,0589 ; 36,44 ; R2 0,8455 ; F 27, 3618Le R2 étant relativement élevé, environ 85%, l’ajustement effectué est de bonne qualité. Et puisque F F6,61, on en conclut que le modèle est globalement bon.[1 ; 5]

Exercice 4Soit le modèle : Yt β0 β1Xt utYt : salaire moyen horaire par jour [en USD]Xt : nombre d’années d’étudesOn donne par ailleurs les informations suivantes : rXY 0.951916 ; σx 3.894440 et σy 2.945636Après estimation, sur base d’un échantillon de 13 observations, un étudiant de L1 FBA présente les résultatsincomplets ci-après : 0.030769 . XtTravail demandé :(i)(ii)(iii)(iv)(v)Compléter les pointillés.Tester la significativité du rXY.Interpréter ces résultats. Semblent-ils logiques ?Calculer le R2.Tester la significativité de la pente et la significativité d’ensemble du modèle.Solution de l’exercice 4(i)Connaissant rXY, σx et σy, la penteest estimée par la formule rXY, ce qui donne, enremplaçant : 0, 7200. On a ainsi : 0,030769 0, 7200 Xt(ii)Le t calculé pour rXY 0,951916 donne tcal 10,3054 et le t0.025 ; 11 2,201. Puisque tcal ttable, onconclut que le rXY est statistiquement non nul.(iii)Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre d’années d’études. Eneffet, ces résultats semblent logiques car il est tout à fait normal que ceux qui beaucoup étudié gagnent un peuplus que ceux qui ont étudié un peu moins.(iv)On sait que, pour un modèle de régression linéaire simple avec terme constant, le R 2 n’est riend’autre que le carré du coefficient de corrélation de Bravais – Pearson. Ainsi :R2 (0, 951916)2 0,9061(v)Connaissant le R2, on a : F 106, 2009 F [1 ; 11] 4, 84. On sait de plus que dans un modèle linéairesimple, le F n’est rien d’autre que le carré du t de Student associé à la pente. Le t de Student de la pente estdonc obtenu en prenant la racine carré de F, soit :10,3054 t0.025 ; 11 2,201En conclusion, la pente est statistiquement significative et le modèle est valable dans l’ensemble.

Exercice 5Le tableau suivant donne l’âge et la tension artérielle Y de 12 femmes :IndividuAge (X)Tension artérielle 0938142104213411681361260140Travail demandé :(i)(ii)(iii)Déterminer l’équation de la droite de régression de Y sur X.Tester la significativité de la pente. Quelle conclusion peut-on tirer ?Estimer la tension artérielle d’une femme âgée de 50 ans.Solution de l’exercice 5L’équation de la droite de régression de Y sur X est : 129,5193 0,1079Xt(5,0449) (0,0942)(.) : écart-typeLa statistique t de Student de la pente est tcal 0,1079/0,0942 1,1455. Le Student théorique, au seuil de 5% et à10 degrés de liberté est ttable 2,228. D’où la pente est statistiquement nulle, ce qui signifie que l’âge n’expliqueen rien la tension artérielle.La tension artérielle d’une femme âgée de 50 ans est : 129,5193 0,1079(50) 134,9149Exercice 6Les données statistiques ci-dessous portent sur les poids respectifs des pères et de leur fils 71676769687170Travail demandé :(i)(ii)(iii)(iv)Calculer la droite des moindres carrés du poids des fils en fonction du poids des pères.Calculer la droite des moindres carrés du poids des pères en fonction du poids des fils.Que vaut le produit des pentes des deux régressions ?Juger de la qualité des ajustements faits en (i) et (ii).Solution de l’exercice 6Soient Y Fils et X Père.La droite des moindres carrés du poids des fils en fonction en fonction des pères, après estimation est : 35,8248031 0,47637795XtEt la droite des moindres carrés du poids des pères en fonction en fonction des fils, après estimation est : -3,37687366 1,03640257Xt

Le produit de deux pentes donne le R2 qui, comme le coefficient de corrélation linéaire, est un indicateursymétrique. On a ainsi :R2 0,47637795 * 1,03640257 0,49371933Au regard de la valeur du R2 faible, environ 49%, les ajustements effectués en (i) et (ii) ne sont de bonne qualité.Exercice 7Cocher la bonne la réponse.1. La droite des MCO d’une régression linéaire simple avec constante passe-t-elle par le point ( , ) ?A. ToujoursB. JamaisC. Parfois2. Pour une régression linéaire simple, le R2 est symétrique :A. OuiB. NonC. Parfois3. Pour une régression linéaire simple, le R2 correspond au carré du F de Fisher :A. OuiB. NonSolution de l’exercice 71 A ; 2A ; 3B.Exercice 8Soient les données suivantes : 114 36 226 702Estimer la relation Yt β0 β1Xt utIndication : n 6.Exercice 9Soit le modèle suivant sans terme constant : Yt βXt ut.Trouver l’estimateurdes MCO.Solution de l’exercice 9En appliquant le critère des MCO, minimisation de la somme des erreurs quadratiques, à cette relation, onobtient :

A partir des calculs effectués dans le tableau ci-dessous, on a : Estimation de la propension marginale à consommer 0,78098 Estimation de la consommation autonome – 9985,575 – 0,78098(11280) 1176,0896 Le modèle estimé est par conséquent : 1176,0896 0,