Commit f7cdd2e5 authored by Benedicte FONTEZ's avatar Benedicte FONTEZ
Browse files

Début des corrections avec Léo : phrases rajoutées

parent 2d53242c
Pipeline #38433 passed with stage
in 24 minutes and 15 seconds
# Introduction au modèle linéaire simple {#intro}
# Fiche résumée du modèle linéaire simple {#intro}
```{r, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning=FALSE, message=FALSE, cache=FALSE,eval=TRUE)
......
......@@ -180,6 +180,8 @@ res.cov.pon <- nlme::gls(gs.rel~FTSW*Label, weight=~FTSW,data=vignes,method="ML"
round(coef(res.cov.pon),2)
```
On a ajusté un modèle complexe, on va comparer ce modèle à des modèles plus simples pour sélectionner le modèle le plus pertinent. La validation par les résidus se fait toujours sur le modèle final sélectionné.
## Comparaison de modèles, les limites de l'approche modèles emboîtés
### Comparaison de modèles linéaires emboîtés : test F
......@@ -214,11 +216,15 @@ anova(res.lin,res.cov)
anova(res.var,res.cov.pon)
```
Les tests ANOVA nous indiquent tous les deux que le meilleur modèle est le modèle de covariance par rapport au modèle linéaire simple (p < 0.05, on rejette $H_0$ qui correspond au modèle le plus simple)
Limites de l'approche: test F non recommandé pour comparer deux modèles linéaires emboîtés si la structure de variance-covariance (la pondération) n'est pas la même entre le modèle sous $H_1$ et sous $H_0$.En effet la formule au numérateur est basée sur
la décomposition de la variance totale qui n'est pas la même si on travaille en $y$ (modèle sous $H_0$) ou $y^p$ (modèle sous $H_1$). Autrement dit, les sommes des carrés ne sont pas pondérées de la même façon et ne sont donc pas comparables.
### Généralisation: comparaison des vraisemblances des modèles, test du maximum de vraisemblance
On emploi le terme de généralisation car ce test peut s'employer dans beaucoup plus de cas, il est générique.
Définition des termes dans le cas du modèle suivant: $Y_i= f(x_i,\theta) + \varepsilon_i$ où $\varepsilon_i \; \text{indépendants} \; \sim N(0,\sqrt{\sigma^2 \, \omega_i^2})$
* Vraisemblance: Probabilité ou densité de l'échantillon vue comme une fonction des paramètres.Comme, $Y_i \sim N(f(x_i,\theta),\sigma \, \omega_i)$, et que les $Y_i$ sont supposés indépendants, on peut écrire la vraisemblance sous forme d'un produit:
......@@ -230,10 +236,16 @@ $$f(\theta,\sigma) = \frac{1}{\sqrt{2\pi \sigma^2 \omega_i^2}}e^{-\frac{(y_1-f(x
$$\ln(V) = -\frac{n}{2} \ln(2\pi \sigma^2 \omega_i^2) - \sum_{i=1}^n\frac{(y_i-f(x_i,\theta))^2}{2\sigma^2 \omega_i^2}$$
Quand $f(x_i,\theta) = \beta_0 + \beta_1 x_i$, on voit apparaître le critère des moindres carrés pondérés dans la log vraisemblance car $\sum_{i=1}^n\frac{(y_i-f(x_i,\theta))^2}{2\sigma^2 \omega_i^2} = \frac{1}{\sigma^2}\sum_{i=1}^n (1/\omega_i^2)(Y_i - \beta_0 - \beta_1 x_i)^2$. Ainsi, maximiser la vraisemblance est équivalent à minimiser les moindres carrés pour estimer le vecteur de paramètres $\theta=(\beta_0,\beta_1)$. Pour une même structure de variance, le _LR_ (liklihood ratio test) ou test du rapport des vraisemblances ($\ln V_{H_0}/V_{H_1}$) pour comparer deux modèles linéaires emboîtés est équivalent au test $F$. Il permet de généraliser la comparaison de deux modèles à des cas plus généraux, comme des modèles non linéaires emboîtés, ou des modèles ayant des structure de variance-covariance emboîtées. Ainsi, pour une même fonction $f(x,\theta)$ dans les deux modèles, on peut comparer l'intérêt d'ajouter une structure de variance (par exemple la pondération avec la fonction _varPower_). Avant il faut s'assurer d'avor estimer les modèles par la même méthode _REML_ (Maximum de vraisemblance restreint), variante de _ML_ qui assure une estimation sans biais de la variance.
Quand $f(x_i,\theta) = \beta_0 + \beta_1 x_i$, on voit apparaître le critère des moindres carrés pondérés dans la log vraisemblance car $\sum_{i=1}^n\frac{(y_i-f(x_i,\theta))^2}{2\sigma^2 \omega_i^2} = \frac{1}{\sigma^2}\sum_{i=1}^n (1/\omega_i^2)(Y_i - \beta_0 - \beta_1 x_i)^2$. Ainsi, maximiser la vraisemblance est équivalent à minimiser les moindres carrés pour estimer le vecteur de paramètres $\theta=(\beta_0,\beta_1)$. Pour une même structure de variance, le _LR_ (liklihood ratio test) ou test du rapport des vraisemblances ($\ln V_{H_0}/V_{H_1}$) pour comparer deux modèles linéaires emboîtés est équivalent au test $F$. Il permet de généraliser la comparaison de deux modèles à des cas plus généraux, comme des modèles non linéaires emboîtés, ou des modèles ayant des structure de variance-covariance emboîtées. Ainsi, pour une même fonction $f(x,\theta)$ dans les deux modèles, on peut comparer l'intérêt d'ajouter une structure de variance (par exemple la pondération avec la fonction _varPower_).
Avant il faut s'assurer d'avor estimer les modèles par la même méthode _REML_ (Maximum de vraisemblance restreint), variante de _ML_ qui assure une estimation sans biais de la variance. On constate tout d’abord qu’en comparant des modèles construits avec des méthodes d’estimation différentes, le test L.Ratio n’est pas effectué :
```{r}
# Estimation du modèle par la même fonction gls pour comparer avec la version pondérée
anova(res.lin,res.cov) # Test L.Ratio non effectué!
```
On va donc **estimer tous les modèles par la même fonction gls** pour comparer avec la version pondérée :
```{r}
res.lin <- gls(gs.rel~FTSW,data=vignes, method="REML")
res.cov <- gls(gs.rel~FTSW*Label,data=vignes, method="REML")
res.pon <- gls(gs.rel~FTSW,weights=varPower(form=~FTSW),data=vignes, method="REML")
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment