Régression linéaire simple, variable quantitative, variable, carrés, coéfficient de détermination, analyse de variance
Nous disposons donc d'un échantillon de n couples de points (xi,yi) i.i.d (indépendants et identiquement distribués), et on veut expliquer (prédire) les valeurs de Y en fonction des valeurs prises par X.
Le terme aléatoire permet de résumer toute l'information qui n'est pas prise en compte dans la relation linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer les variables qui sont absentes, etc.)
[...] Prédire / expliquer les valeurs d'une variable quantitative Y à partir d'une autre variable X Ricco Rakotomalala Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 2 Position du problème z s s Y E Y X s s Y / W D yi = a xi + b + ε i E z > z y y Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 3 Hypothèses W y z y ε y z > ε > / COV (ε i , ε j ) = 0 E (ε i ) = 0 V (ε i ) = σ ε2 COV ( xi , ε i ) = > ε i N σ ε ) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 4 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 5 Estimateur des MCO (Moindres carrés ordinaires) yi a xi + b εi z S = S = i n i n n 2 i Z i W K i ( ax i + b 2 ax i b ] 2 xi S = i ^K>hd/KE = 0 = 0 xi y i a xi 2 bx = 0 i i y ax b = 0 ( yi y x ) = i 2 ( xi x ) i = y ax ˆ ˆ Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC s 6 Exemple des rendements agricoles Y Moyenne X - 10.1 - 8.1 - 3.1 - 10.4 - 6.4 - 2.4 Somme ˆ = 0.714 = 492.4 = 26.1 0.714 30.4 = 4.39 ˆ y = 0.7141 x + 4.3928 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 7 Quelques commentaires ˆ a = ˆ C O V ( X ) σˆ ˆ = r 2 σˆ X σˆ Y X Z ˆ ˆ y i = y ( xi ) ˆ ˆ = axi + b Z ˆ ˆ ε i = yi yi εˆ i i W s ˆ ˆ ˆ y ( x ) = ax + b ˆ ˆ = ax + ( y ax ) 35 33y = 0.7141 x + 4.3928 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 9 Equation d'analyse de variance Décomposition de la variance K D ^ ^ ˆ S = ( yi yi ) i n 2 ^ i i ˆ ˆ y ) = ( yi yi + yi y ) 2 i ˆ ˆ ˆ ˆ = ( y i y i ) + ( y i y ) + ( y i y i y i y ) 2 i i i s ˆ ˆ ( yi y = ( yi yi + ( yi y i i i SCT = SCR + SCE Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 10 Coefficient de détermination Et coefficient de corrélation linéaire multiple ˆ SCE = = SCT ( y i i i 2 R2 Z Z i 2 z R2 = R2 = SCR SCT ˆ 2 ( yi yi ) i i i 2 Z R = R2 K ˆ rY , X = sgn(a ) R > W Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 11 Exemple des rendements agricoles ˆ ˆ ˆ yi = axi + b = 0.714 xi + 4.39 Y Moyenne X - 10.1 - 8.1 - 3.1 - 10.4 - 6.4 - 2.4 Somme SCT ESTIMATION a 0.714053615 b 4.392770106 ˆ ˆ ε i = yi yi ˆ ε i Résidus Résidus^2 Somme 63.838749 SCR SCE = SCT - SCR 251.061251 0.79727295 R 0.89290142 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 12 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 13 Biais ˆ E ] = a ˆ Eb > s â = a + ωi ε i i K ωi = j (xi x ) j 2 E (â ) = a + E ωiε i i E (â ) = a + ωi E (ε i ) / i y ω ε E (â ) = a ε ε ε Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 14 Biais (suite) W ˆ ˆ b = b + ε a ˆ E b > > y ε Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 15 Variance ˆ ˆ V ) = a ) ] = E ωiε i i = E ωi2ε i2 + ωiωi 'ε iε i ' i ε i εi ˆ = i 2 χ 2 2 ) σε ˆ εˆ 2 i σ ε2 χ 2 σε Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 23 Distribution de â Variance de l'erreur estimée K ˆ ˆ σ aˆ 2 σε 2 2 = 2 σ aˆ σε ˆ σ aˆ 2 2 χ 2 σ aˆ K ˆ ℑ(n 2 ) ˆˆ σa ˆ ℑ(n ˆ σ bˆ / ˆ t 2 ˆˆ a ] d H 0 : a = a0 H 1 : a a0 y z 0 : a = 0 H1 : a 0 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 24 Rendements agricoles Tests de significativité des coefficients Y X Somme Moyenne - 10.4 - 6.4 - 2.4 - 6.96 - SCT Résidus Somme - 2.674 - 3.530 Résidus^ SCR sigma²(epsilon) ESTIMATION a 0.714053615 b 4.392770106 sigma²(a^) sigma²(b^) ddl t théorique (bilatéral à sigma(a^) sigma(b^) rejet H acceptation H0 ta = ˆ ˆ a 0.714 = = 5.609 ˆ σ aˆ 0.127 W t a > t1−α 2 ˆ Z t1−α / 2 = 0.05 / 2 = t 0.975 = 2.306 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC Test de significativité globale du modèle H0 : Le modèle n'amène rien dans l'explication de Y H1 : Le modèle est pertinent (globalement significatif) d ^ SCE F = 1 F n SCR Z & Z ( R2 R2 ) Z F > F1−α n Z d Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 26 Rendements agricoles Tests de significativité globale Y X Somme Moyenne - 10.4 - 6.4 - 2.4 - 6.96 - SCT Tableau d'analyse de variance Source de variation SC DDL Expliqués (Régression) 251.061251 Résidus 63.83874898 Total 314.9 F calculé DDL1 DDL2 F théorique (à Somme Résidus - 2.674 - 3.530 Résidus^ SCR ESTIMATION a 0.714053615 b CM rejet de H0 SCE 251.06 1 = = 31.4619 SCR 7.9798 F1−α = F 0.95 = 5.37655 W F > F1−α Z Z , F = 31.4619 = 5.609 = t a ˆ Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 27 Rendements agricoles La fonction DROITEREG d'EXCEL Y X ˆ ˆ a b ˆ σ bˆ ˆ σ aˆ ˆ 2.8248617 σ ε R F 31.4619262 SCE SCR Intervalle t théorique Borne basse Borne haute de confiance à - DROITEREG Test de significativité des coefficients t de Student p-value Test de la régression globale F-calculé 31.4619262 DDL numérateur 1 DDL dénominateur 8 p-value 0.00050487 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 28 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 29 Prévision ponctuelle A prédire d'une valeur connue de prédire la valeur de Y W ˆ ˆ ˆ ˆ yi* = y ( xi* ) = axi* + b > ˆ E ( yi * ) = yi * ˆ ˆ ε i * = yi * yi * ˆ ˆ = axi* + b (axi* + b + ε ) ˆ ˆ = a + b b ε ( ) ˆ ˆ ˆ E (ε ) = E a + b b ε ˆ ˆ = x E a ) + E b b E (ε [ ( ) ] ( ) > ) 0 > 0 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 30 Prévision par intervalle Variance de l'erreur de prévision W ˆ ˆ ε = y i * y ˆ E (ε ) = 0 K ' x = σ ˆ ˆ* V (ε ) = E ε i2 = σ ε2 + + ˆ ε n (xi x i ( ) Z ˆˆ σ ε2 2 x ) 1 ˆ = σ ε2 + + n ( xi x i x ) 1 hi* = + n ( xi x ) i / ˆ σ ε2 = > SCR x x ) i i 2 n Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 31 Prévision par intervalle Distribution Définition de l'intervalle W ε N σ ε ) ˆ ˆ ε = yi* yi* N σ ε 1 + hi* ( ) σ ε2 χ 2 ˆ2 σε ˆ yi * yi * ℑ(n 2 ) ˆ σ εˆi* Z > z Y = aX + b dy dx Modèle log-linéaire > y > ^ h z y DK Y = bX a z > y dy y dx x > D > z y Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 35 Modèle exponentiel (géométrique) Y = e aX z y > z ^ > y dy y dx Modèle logarithmique z Y = a ln( X ) + b > z y dy dx x > z y 36 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC Un modèle particulier Le modèle logistique Un modèle particulier : le modèle logistique Problème : Tous les modèles dans ont une concavité constante (dérivée seconde de signe constant), on peut avoir besoin d 'un modèle à plusieurs phases ex : lancement d 'un produit dans le temps Décollage produit inconnu positionnement sur le marché Croissance accélérée large diffusion Freinage saturation du marché concurrence Equation y = ymin + ymax ymin 1 + e ax + b Linéarisation Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC ln( ymax y ) = a x+b y ymin 37 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 38 Cas des données centrées > > W y i = yi y x i = xi x o ˆ ˆ b = a x = 0 o o y=x=0 o o Y X - 10.1 - 8.1 - 3.1 - 10.4 - 6.4 - 2.4 Z Moyenne > Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 39 Cas des données non-centrées yi = a xi + ε i K 2 S = ε = ( yi a xi ) 2 i i i h y ˆ i i 2 i i i Y X Rég.1 - Avec constante a b Rég.2 - Sans constante 0.85124307 a Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 40 Cas des données non-centrées (suite) Z > Z h ˆ σ ε2 = ˆ σ aˆ = 2 SCR n ) i i ˆ σε s ˆ ℑ(n ˆ σ aˆ ^ W W W W Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 41 Cas des données non-centrées Un exemple Comparaison des salaires à l'intérieur des ménages Numero Sal.Homme Sal.Femme z ^ , y ^ & yi = a xi + ε i d 0 : a = 1 : a > 1 sigma(a) ddl Rejet de H0 t calculé t-théorique Conclusion t = ˆ a 1 = σˆ aˆ t = > t 1 α ( n 1 ) = t ( 29 ) = Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 42 Bibliographique R. [...]
[...] Bourbonnais, Économétrie Dunod Y.Dodge, V.Rousson, Analyse de régression appliquée Dunod M. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture