title: "Eviter le sur-apprentissage en machine learning"
subtitle: "Groupe Biopuces"
**Elise Maigné**
date: today
date-format: long
echo: false
bibliography: mybib.bib
css: custom_css.css
inrae-revealjs :
fontsize: 1.9em
footer: "Présentation Biopuces"
theme: forest
- text: |
## Modèle descriptif VS modèle prédictif
**Analyse descriptive**
Faire un modèle pour expliquer (**décrire**) ce qu'il y a dans les données (la force d'une relation, l'intensité de phénomènes observés sur les données, ...).
. . .
**Analyse prédictive**
Construire un modèle pour catégoriser (**prédire**) sur un individu (sample) une caractéristique.
- **Prédiction supervisée** : les données sont pré-catégorisée (la caractéristique est connue, au moins sur une partie des données)
- **Prédiction non supervisée** : la caractéristique est inconnue au départ
## Qu'est-ce que le surapprentissage ?
set.seed(12345) # Create example data frame
x <- seq(1,40, length=50) - 20
y <- rnorm(50, mean=0, sd=500) + 1.1 * x^3
df <- data.frame(x, y)
p1 <- ggplot(df, aes(x=x, y=y)) +
geom_point() +
hrbrthemes::theme_ipsum() +
theme(plot.margin = unit(c(0, 0.5, 0, 0.5), "cm"),
axis.text.x = element_blank(),
axis.text.y = element_blank())
my_mod3 <- lm(y~ x + I(x^2) + I(x^3), data=df)
fitok <- data.frame("x" = sort(df$x),
"ypred" = fitted(my_mod3)[order(df$x)])
#| echo: false
p2 <- p1 + geom_line(data=fitok, aes(x=x, y=ypred), col="#88CC88", linewidth=2, alpha=0.7) +
labs(title="Modélisation correcte")
my_mod1 <- lm(y~x, data=df)
underfit <- data.frame("x" = sort(df$x),
"ypred" = fitted(my_mod1)[order(df$x)])
p3 <- p1 +
geom_line(data=underfit, aes(x=x, y=ypred), col="#cc0066", size=2, alpha=0.7) +
labs(title="Sous apprentissage")
xnam <- paste0("I(x^", 1:25, ")")
fmla <- as.formula(paste("y ~ ", paste(xnam, collapse= "+")))
my_mod25 <- lm(fmla, data=df)
overfit <- data.frame("x" = sort(df$x),
"ypred" = fitted(my_mod25)[order(df$x)])
p4 <- p1 +
geom_line(data=overfit, aes(x=x, y=ypred), col="#cc0066", size=2, alpha=0.7) +
labs(title="Sur apprentissage")
p3 + p2 + p4
**Objectif** : séparer ce qui est de la tendance et ce qui est du bruit.
## Qu'est-ce que le surapprentissage ?
:::: {.columns}
::: {.column width=50%}
p3 + p2 + p4
::: {.column width=50%}
**Sous-apprentissage** = plus de biais, moins de variance
**Sur-apprentissage** = plus de variance, moins de biais
## Le processus du machine learning
::: columns
::: {.column width="40%"}
%%| fig-width: 10
flowchart TD
A[Données] --> B[Modèle optimal]
B --> B
B --> C[Validation sur<br>nouvelles données]
::: {.column width="60%"}
::: fragment
### Phase d'entrainement
On ajuste un modèle jusqu'à avoir de bons résultats (ajustement des paramètres, choix des variables, ...).
Processus itératif.
::: fragment
### Phase de test
On teste/valide ce modèle..
## Processus général de machine learning
dataexample <- data.frame(ind=1:100, step1 = "Dataset",
step2 = c(rep("Train", 80), rep("Test", 20)),
step3 = c(rep("Train", 64), rep("Validation",16), rep("Test", 20)),
y=c(rep("1", 5), rep("0", 15)))
dataexample$step2 <- factor(dataexample$step2, levels=c("Train", "Test"))
dataexample$step3 <- factor(dataexample$step3, levels=c("Train", "Validation", "Test"))
vectColors <- c("Train"="#8DA0CB", "Test"= "#66C2A5" , "Validation"= "#FC8D62", "Dataset"= "#E5C494")
mytheme <- hrbrthemes::theme_ipsum() +
theme(plot.margin = margin(c(0, 0.5, 0, 0.5), "cm"),
legend.position = "none",
axis.text.x = element_blank(),
axis.ticks = element_blank(),
axis.title.x = element_blank(),
panel.grid = element_blank(),
plot.title = element_text(size=14))
#| fig-width: 4
pphases <-
ggplot(dataexample, aes(x=step1, fill=step2)) +
geom_bar(linewidth=0, width = 1.5) +
mytheme +
theme(axis.text.y = element_blank(),
axis.title.y = element_blank(),
axis.ticks.y = element_blank()) +
scale_fill_manual(values=c("#855C75", "#D9AF6B")) +
annotate("text", x=1, y=c(10, 60), label=c("Phase\nde\ntest", "Phase\nd'entrainement"), angle = 90)
::: columns
::: {.column width="40%"}
#| fig-width: 2.2
pstep1 <- ggplot(dataexample, aes(x=step1, fill=step1, group=ind)) +
geom_bar(linewidth=0.1, width = 1.5, color="black") +
mytheme +
scale_fill_manual(values=vectColors) +
labs(y="Individuals", title="Dataset")
pstep1 + pphases + patchwork::plot_layout(widths = c(2, 2))
::: {.column width="60%"}
Exemple d'un jeu de données avec 100 observations.
## Processus général de machine learning
::: columns
::: {.column width="40%"}
#| fig-width: 4
pstep2 <-
ggplot(dataexample, aes(x=step1, fill=step2)) +
geom_bar(linewidth=0, width = 1.5) +
mytheme +
theme(axis.text.y = element_blank(),
axis.title.y = element_blank(),
axis.ticks.y = element_blank(),
plot.margin = margin(c(0, 0, 0, 20))) +
scale_fill_manual(values=vectColors) +
title="Train/Test") +
annotate("text", x=1, y=c(10, 60), label=c("Test", "Train"))
pstep1 + pphases + pstep2 + patchwork::plot_layout(widths = c(5, 5, 10))
::: {.column width="60%"}
On divise le jeu de données en deux échantillons : **train** et **test** (classiquement 60%/40%, 70%/30% ou 80%/20% ).
- **train** est l'échantillon sur lequel on va ajuster le modèle.
- **test** est l'échantillon sur lequel on va vérifier que le modèle s'applique bien à un autre jeu de données.
. . .
L'échantillon test ne doit JAMAIS être utilisé pendant la phase d'entraînement
. . .
N'empêche pas le sur-apprentissage !
## Processus général de machine learning
::: columns
::: {.column width="60%"}
#| fig-width: 6
pstep3 <-
ggplot(dataexample, aes(x=step1, fill=step3)) +
geom_bar(linewidth=0, width = 1.5) +
mytheme +
theme(axis.text.y = element_blank(),
axis.title.y = element_blank(),
axis.ticks.y = element_blank(),
plot.margin = margin(c(0, 0, 0, 20))) +
scale_fill_manual(values=vectColors) +
title="Train/Validation/\nTest") +
annotate("text", x=1, y=c(10, 28, 68), label=c("Test", "Validation", "Train"))
pstep1 + pphases + pstep2 + pstep3 + patchwork::plot_layout(widths = c(5, 5, 10, 10))
::: {.column width="40%"}
L'échantillon de **validation** va nous servir à valider le modèle, pendant la phase d'entraînement.
::: {.fragment}
N'empêche toujours pas le sur-apprentissage !
## Processus général de machine learning
![Processus générique machine learning [Source @boehmke2019hands]](
## Validation croisée
- **Holdout** (Train/Test/Validation seulement pour grands jeux de données, et sous certaines conditions)
. . .
Exemples de techniques de validation croisée :
- **Repeated random sub-sampling**
- **k-fold**
- **LOOCV** (leave-one-out cross-validation)
- **Bootstrapping**
- ...
Voir par exemple :
#| echo: true
?caret::trainControl # Voir argument method
## Validation croisée exemple k-fold
![Exemple k-fold. [Source @boehmke2019hands]](
# La théorie VS la vie {.inverse}
## La théorie VS la vie
L'approche Train/Test/Validation (i.e. Holdout) marche uniquement si on a des jeux de données très grands [voir @Molinaro2005; @hawkins2003] et ne permet pas complètement d'enlever le sur-apprentissage.
On trouve aussi :
- petits échantillons
- classes déséquilibrées
- plus de variables que d'individus
. . .
On va contrôler :
- le tirage aléatoire
- le processus de validation (validation croisée)
# Contrôle du tirage aléatoire {.inverse}
## Comment diviser les données ?
Pour la division train/test :
**Simple tirage aléatoire.**
On va tirer aléatoirement 30% (ou 20% ou 40%) des données totales pour former l'échantillon test. Le reste formera l'échantillon d'apprentissage.
. . .
**Tirage aléatoire stratifié.**
On veut que la distribution de la variable à expliquer (cible) soit la même dans les échantillons. Le tirage se fait soit par quantile (var. continue) soit par classe (var. catégorielle). Parfois utile par exemple dans des distributions déséquilibrées.
. . .
Dans tous les cas toujours fixer une graine pour pouvoir reproduire le tirage (par ex. en R : `set.seed()`\`).
# Déséquilibre des classes {.inverse}
## Déséquilibre des classes
Exemple dans un problème de classification on essaie de prédire Y qui est distribué 1: 5% et 0: 95%.
#| fig-cap: "Cas de déséquilibre des classes : une classe est largement minoritaire."
dtplot <- rbind(data.frame(x=rnorm(190), y=rnorm(190), z="A"),
data.frame(x=rnorm(10, mean=1, sd=0.2), y=rnorm(10, mean=1, sd=0.2), z="B"))
ggplot(data=dtplot, aes(x=x, y=y, color=z, shape=z)) +
geom_point(alpha=0.8, size=2) +
hrbrthemes::theme_ipsum() +
labs(x=NULL, y=NULL, title=NULL) +
theme(plot.margin = margin(c(0, 0, 0, 0), "cm"),
legend.position = "none") +
scale_color_manual(values=c("A"= "#66C2A5" , "B"= "#FC8D62"))
## Déséquilibre des classes - Rééchantillonnage
#| echo: false
dataexample <- data.frame(x=1:20,
y=c(rep("Class2", 5), rep("Class1", 15)))
dsample <- caret::downSample(dataexample, factor(dataexample$y), yname="y")
usample <- caret::upSample(dataexample, factor(dataexample$y), yname="y")
dataexample$ds <- "Echantillon d'apprentissage"
dsample$ds <- "DownSampling"
usample$ds <- "UpSampling"
colorsVect <- scales::hue_pal()(20)
colorsVect <- sample(colorsVect, replace = FALSE, size=20)
::: r-stack
::: fragment
#| fig-width: 4
#| fig-height: 3.5
#| fig-align: "left"
ggplot(dataexample, aes(x=y, fill=factor(x))) +
geom_bar() +
geom_text(aes(label=x, y=1), position = position_stack(vjust = 0.5)) +
scale_fill_manual(values=colorsVect) +
facet_wrap(vars(ds)) +
hrbrthemes::theme_ipsum() +
labs(x=NULL, y=NULL) +
theme(legend.position = "none",
axis.text.y = element_blank(),
panel.grid.major = element_blank(),
panel.grid.minor = element_blank(),
plot.margin=margin(c(0, 0, 0, 0), "cm"))
::: fragment
#| fig-width: 12
#| fig-height: 4
#| fig-align: "left"
ggplot(rbind(dataexample, dsample, usample), aes(x=y, fill=factor(x))) +
geom_bar() +
geom_text(aes(label=x, y=1), position = position_stack(vjust = 0.5)) +
scale_fill_manual(values=colorsVect) +
facet_wrap(vars(ds)) +
hrbrthemes::theme_ipsum() +
labs(x=NULL, y=NULL) +
theme(legend.position = "none",
axis.text.y = element_blank(),
panel.grid.major = element_blank(),
panel.grid.minor = element_blank(),
plot.margin=margin(c(0, 0, 0, 0), "cm"))
::: fragment
Selon les modèles on n'est pas obligé d''avoir 50/50. Ex. Arbres : 5/10% peuvent suffire.
## Déséquilibre des classes - Rééchantillonnage
- UpSampling (ou OverSampling) : clonage aléatoire (plutôt pour méthodes linéaires)
::: fragment
Et aussi :
- **SMOTE** (Synthetic Minority Oversampling TEchnique - [@chawla2002smote]), **SMOTE-NC** si variables catégorielles,
::: {.fontsize80pct}
Des individus ressemblant à ceux de la classe minoritaire sont générés. 2 paramètres, $k$ et $\alpha$. moyenne pondérée d'un voisin parmi les k plus proches.
- **ROSE** (Random Over Sampling Examples - [@menardi2014training]).
::: {.fontsize80pct}
Technique basée sur le bootstrap et des méthodes à noyaux. Génère des individus artificiels autour des individus. 2 paramètres à ajuster.
?caret::trainControl # Voir argument sampling
## Déséquilibre des classes - Autres méthodes
Peut être pris en compte directement par l'algorithme (à ne pas combiner avec un rééchantillonnage).
- rééchantillonnage interne à la volée (bagging, boosting), sur-pondération de la classe minoritaire (poids), ...
Pris en compte sur l'erreur de classification :
- on ajuste le calcul à postériori
::: fragment
Dans tous les cas, une méthode mal utilisée peut accroître les biais du modèle.
## Déséquilibre des classes - Mesures d'erreurs
# Hyperparamètres
## Hyperparamètres
**Paramètres** = estimés par le modèle $\neq$ **Hyperparamètres** fixés avant de faire tourner le modèle.
Exemple :
y = \alpha + \beta x + \epsilon
. . .
Puis on introduit une pénalité g(x) plus ou moins forte (\lambda \> 0) :
y = \alpha + \beta x + \epsilon + \lambda g(x)
## Hyperparamètres - Optimisation
Les différents paramètres sont à ajuster pendant le processus d'entrainement, le taux de rééchantillonnage peut l'être aussi.
. . .
**Techniques :**
- Essai de plusieurs valeurs. Lourde et attention à la reproductibilité mais relativement rapide.
- Recherche par grille (espacce fini)
- L'optimisation bayesienne (espace des paramètres)
Il existe des optimiseurs pour les hyperparamètres (voir par exemple `{tune}`).
## Hyperparamètres - Optimisation
![Source :](images/evol_biais_variance.png)
Trouver un compromis entre biais et variance.
Parler des biais.
Des types de mesures d'erreurs.
Des petits échantillons
