# TP probabilités, régression logistique

Ce TP vise à mettre en oeuvre certaines notions vues en cours de probabilité. Il nécessitera le manipulations des notions de densité de probabilité, création d'échantillon de données et application d'une régression logistique pour la classification de données.

Dans ce TP, des cellules seront laissées à trous, il faudra les compléter suivant les consignes. Elles seront identifiées par le mot **Exercice**. Certaines seront suivies de cellules vérifications qui vous permettront de vérifier si le résultat codé correspond bien au résultat attendu, elles seront précédées du mot **Vérification**.

## Création de densités de probabilités gaussiennes

Dans cette première partie, nous allons créer les fonctions permettant de générer des densité de probabilité gaussiennes multivariées à deux dimensions.

**Exercice** : Importer numpy et matplotlib.pyplot et les nommer avec les mots-clés np et plt

In [None]:
import numpy as np
import matplotlib.pyplot as plt

**Vérification** : Exécuter la cellule suivante. Une droite doit apparaître.

In [None]:
plt.plot(np.arange(5))

**Exercice** : Codez la fonction qui, à partir de deux valeurs de moyenne $\mu_{X}$ et $\mu_{Y}$ renvoient le vecteur moyenne : $\begin{pmatrix}
    \mu_{X} \\
    \mu_{Y}
    \end{pmatrix}$

In [None]:
def moy(mu_x,mu_y):
    m = np.array([mu_x,mu_y])
    return m

**Vérification** : Exécutez la cellule suivante :

In [None]:
#NE PAS MODIFIER

mu_x = 5.
mu_y = 8.

moy(mu_x,mu_y)

**Exercice** : Coder la fonction qui, à partir des valeurs d'écart-type $\sigma_{X}$, $\sigma_{Y}$ et de corrélation $\rho$ renvoie la matrice de covariance $\Sigma$

Rappel : $\Sigma = \begin{pmatrix}
            \sigma_{X}^{2} & \rho\sigma_{X}\sigma_{Y} \\
            \rho\sigma_{X}\sigma_{Y} & \sigma_{Y}^{2}
            \end{pmatrix}$

In [None]:
def cov(sigma_x,sigma_y,rho):
    
    s = np.array([[sigma_x**2,rho*sigma_x*sigma_y],[rho*sigma_x*sigma_y,sigma_y**2]])
                  
    return s

**Vérification** : Exécutez la cellule ci-dessous :

In [None]:
#NE PAS MODIFIER

sigma_x = 3
sigma_y = 5
rho = 0.2

cov(sigma_x,sigma_y,rho)

**Exercice** : Coder la fonction suivante qui, à partir d'un vecteur de données $X$ de dimension $(N_{exemples},2)$ renvoie la vraisemblance de ce vecteur pour une loi gaussienne 2D de moyennes $\mu_{X}$, $\mu_{Y}$, d'écarts-types $\sigma_{X}$, $\sigma_{Y}$ et de corrélation $\rho$.

**Rappel** : La densité d'une loi gaussienne multivariée à $d$ dimensions, de vecteur moyenne $\mu$ et de matrice de covariance $\Sigma$, s'écrit :

\begin{equation}
p(x) = \frac{1}{(2\pi)^{d/2}\det(\Sigma)^{1/2}}\exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]
\end{equation}

**Hints** :
- Pensez à réutiliser les deux fonctions précédentes moy et cov pour construire les vecteurs moyennes et matrices de covariance
- Les fonction de np.linalg seront intéressantes pour les calculs matriciels (inverse et déterminant)
- La fonction np.dot permet d'exécuter des produits scalaires
- Pensez à programmer de manière "vectorielle", le vecteur X d'entrée peut avoir un nombre quelconque d'éléments, faites attention à la dimension

In [None]:
def gauss2D(X,mu_x,mu_y,sigma_x,sigma_y,rho):
    
    mu = moy(mu_x,mu_y)
    sigma = cov(sigma_x,sigma_y,rho)
    
    sigma_inv = np.linalg.inv(sigma)
    sigma_det = np.linalg.det(sigma)
    
    p = (1/((2*np.pi)*sigma_det**(1/2))*np.exp(-0.5*np.sum(((X-mu).T*np.dot(sigma_inv,(X-mu).T)),axis = 0)))
    
    return p  

**Vérification** : Exécutez la cellule ci-dessous

In [None]:
#NE PAS MODIFIER

X = np.array([[0.2,0.6],[-0.4,0.8],[-0.1,1.2],[0,0]])

mu_x = -0.4
mu_y = 0.8
sigma_x = 0.25
sigma_y = 0.21
rho = -0.1

p = gauss2D(X,mu_x,mu_y,sigma_x,sigma_y,rho)
print(p)

**Exercice** : Nous allons maitenant tracer les cartes de probabilité en 2D. Nous prendrons les paramètres ci-dessous pour la loi gaussienne.

Dans la cellule ci-dessous, écrivez un code qui permet de représenter cette carte en 2D. Nous les tracerons entre -5 et 5 avec une pixellisation de 100 pixels.

**Hints** :
- Commencez par créer un vecteur de données x et y uniformément réparties avec 100 valeurs entre -5 et 5. La fonction np.linspace sera utile.
- Créez une grille de données 2D x et y à partir de ces deux vecteurs. La fonction np.meshgrid sera utile.
- Appliquez la fonction de densité gaussienne à ces deux grilles. Attention, la fonction gauss2D attend un vecteur de taille $(N_{exemples},2)$, notez bien la dimension. Indice : il faudra utiliser la fonction np.reshape et passer par un vecteur intermédiaire X.
- Tracez cette densité de probabilité. La fonction plt.colormesh sera utile. Faites de nouveau attention aux dimensions.
- N'oubliez pas de mettre des légendes, colorbar...

In [None]:
#EXÉCUTEZ CETTE CELLULE SANS LA MODIFIER

mu_x = -0.4
mu_y = 0.8
sigma_x = 0.5
sigma_y = 0.21
rho = -0.3

In [None]:
x = np.linspace(-5,5,1000)
y = x*1.
x, y = np.meshgrid(x,y)

x2 = np.reshape(x,np.shape(x)[0]*np.shape(x)[1])
y2 = np.reshape(y,np.shape(y)[0]*np.shape(y)[1])

X = np.zeros((np.shape(x2)[0],2))

X[:,0] = x2
X[:,1] = y2

p = gauss2D(X,mu_x,mu_y,sigma_x,sigma_y,rho)
p = np.reshape(p,(1000,1000))

fig, ax = plt.subplots(1,figsize = (16,9))
plt.pcolormesh(x,y,p,cmap = "hot")
plt.colorbar(label = "Densité de probabilité")
plt.xlabel("Axe X")
plt.ylabel("Axe Y")
ax.set_aspect("equal")

## Générateur de points

**Exercice** : Dans la cellule ci-dessous, générez des points aléatoirement suivant une loi gaussienne 2D dont les paramètres sont donnés dans la cellule ci-dessous. Représentez ces points superposés à la carte de densité de probabilité. Générez de l'ordre de 100 points.

**Hints** :
- Pour générer ces points, la fonction np.random.multivariate_normal sera utile.
- Pour les représenter, la fonction plt.scatter sera utile. Vous pouvez les représenter par des croix par exemple.

In [None]:
#EXÉCUTEZ CETTE CELLULE SANS LA MODIFIER

mu_x = -0.4
mu_y = 0.8
sigma_x = 0.5
sigma_y = 0.21
rho = -0.3

In [None]:
data_gen_1 = np.random.multivariate_normal(moy(mu_x,mu_y),cov(sigma_x,sigma_y,rho),100)

x = np.linspace(-5,5,1000)
y = x*1.
x, y = np.meshgrid(x,y)

x2 = np.reshape(x,np.shape(x)[0]*np.shape(x)[1])
y2 = np.reshape(y,np.shape(y)[0]*np.shape(y)[1])

X = np.zeros((np.shape(x2)[0],2))

X[:,0] = x2
X[:,1] = y2

p = gauss2D(X,mu_x,mu_y,sigma_x,sigma_y,rho)
p = np.reshape(p,(1000,1000))

fig, ax = plt.subplots(1,figsize = (16,9))
plt.pcolormesh(x,y,p,cmap = "hot")
plt.colorbar(label = "Densité de probabilité")
plt.scatter(data_gen_1[:,0],data_gen_1[:,1],marker = "x",color = "blue")
plt.xlabel("Axe X")
plt.ylabel("Axe Y")
ax.set_aspect("equal")

## Séparateur bayésien

**Exercice** : On se fixe deux lois de probabilité gaussienne $p_1$ et $p_2$, de paramètres respectifs $(\mu_{X,1},\mu_{Y,1},\sigma_{X,1},\sigma_{Y,1},\rho_{1})$ et $(\mu_{X,2},\mu_{Y,2},\sigma_{X,2},\sigma_{Y,2},\rho_{2})$. Soit $X$, un vecteur à deux dimensions. On souhaite calculer la probabilité $p(1|X)$ que $X$ soit issu de la première gaussienne.

Complétez la fonction suivante de sorte à ce qu'elle renvoie cette probabilité en appliquant le théorème de Bayes. Un paramètre prior est nécessaire dans cette fonction.

**Rappel** : Théorème de Bayes

\begin{equation}
p(1|X) = \frac{p(1)p(X|1)}{p(1)p(X|1)+(1-p(1))p(X|2)}
\end{equation}

$p(X|1)$ et $p(X|2)$ sont les vraisemblances d'observer $X$ selon les deux distributions gaussiennes 1 et 2 respectivement. $p(1)$ est la probabilité d'appartenir a priori à la classe 1.

In [None]:
def bayes(X,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2,prior_1):
    
    p_x_1 = gauss2D(X,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1)
    p_x_2 = gauss2D(X,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2)
    
    p_1_x = prior_1*p_x_1/(prior_1*p_x_1 + (1-prior_1)*p_x_2)
    
    return p_1_x

**Vérification** : Exécutez la cellule suivante

In [None]:
#NE PAS MODIFIER

mu_x_1 = -0.5
mu_y_1 = 0.7
sigma_x_1 = 0.3
sigma_y_1 = 0.3
rho_1 = -0.

mu_x_2 = 2.
mu_y_2 = 0.1
sigma_x_2 = 0.3
sigma_y_2 = 0.3
rho_2 = -0.

X = np.array([[0.7,0.7],[-0.4,0.8],[0.8,0.1],[1.,0.6]])

prior_1 = 0.75

print(bayes(X,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2,prior_1))

**Exercice** : Tracez la carte de probabilité bayésienne d'appartenir à la classe 1 en utilisant le jeu de paramètres suivant. Effectuez un tirage aléatoire de 100 points par dessus suivant les paramètres ci-dessous.

In [None]:
#NE PAS MODIFIER

mu_x_1 = -0.5
mu_y_1 = 0.7
sigma_x_1 = 0.3
sigma_y_1 = 0.3
rho_1 = -0.

mu_x_2 = 2.
mu_y_2 = 0.1
sigma_x_2 = 0.3
sigma_y_2 = 0.3
rho_2 = -0.

prior_1 = 0.5

In [None]:
data_gen_1 = np.random.multivariate_normal(moy(mu_x_1,mu_y_1),cov(sigma_x_1,sigma_y_1,rho_1),100)
data_gen_2 = np.random.multivariate_normal(moy(mu_x_2,mu_y_2),cov(sigma_x_2,sigma_y_2,rho_2),100)


x = np.linspace(-5,5,1000)
y = x*1.
x, y = np.meshgrid(x,y)

x2 = np.reshape(x,np.shape(x)[0]*np.shape(x)[1])
y2 = np.reshape(y,np.shape(y)[0]*np.shape(y)[1])

X = np.zeros((np.shape(x2)[0],2))

X[:,0] = x2
X[:,1] = y2

p = bayes(X,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2,prior_1)
p = np.reshape(p,(1000,1000))

fig, ax = plt.subplots(1,figsize = (16,9))
plt.pcolormesh(x,y,p,cmap = "hot")
plt.colorbar(label = "Densité de probabilité")
plt.scatter(data_gen_1[:,0],data_gen_1[:,1],marker = "x",color = "blue")
plt.scatter(data_gen_2[:,0],data_gen_2[:,1],marker = "x",color = "orange")
plt.xlabel("Axe X")
plt.ylabel("Axe Y")
ax.set_aspect("equal")

In [None]:
mu_x_1 = -0.5
mu_y_1 = 0.7
sigma_x_1 = 0.3
sigma_y_1 = 0.3
rho_1 = -0.3

mu_x_2 = 2.
mu_y_2 = 0.1
sigma_x_2 = 0.1
sigma_y_2 = 0.2
rho_2 = -0.

prior_1 = 0.5

In [None]:
data_gen_1 = np.random.multivariate_normal(moy(mu_x_1,mu_y_1),cov(sigma_x_1,sigma_y_1,rho_1),100)
data_gen_2 = np.random.multivariate_normal(moy(mu_x_2,mu_y_2),cov(sigma_x_2,sigma_y_2,rho_2),100)


x = np.linspace(-5,5,1000)
y = x*1.
x, y = np.meshgrid(x,y)

x2 = np.reshape(x,np.shape(x)[0]*np.shape(x)[1])
y2 = np.reshape(y,np.shape(y)[0]*np.shape(y)[1])

X = np.zeros((np.shape(x2)[0],2))

X[:,0] = x2
X[:,1] = y2

p = bayes(X,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2,prior_1)
p = np.reshape(p,(1000,1000))

fig, ax = plt.subplots(1,figsize = (16,9))
plt.pcolormesh(x,y,p,cmap = "hot")
plt.colorbar(label = "Densité de probabilité")
plt.scatter(data_gen_1[:,0],data_gen_1[:,1],marker = "x",color = "blue")
plt.scatter(data_gen_2[:,0],data_gen_2[:,1],marker = "x",color = "orange")
plt.xlabel("Axe X")
plt.ylabel("Axe Y")
ax.set_aspect("equal")

## Régression logistique

Nous allons maintenant déterminer la séparatrice entre nos données par une régression logistique. Nous allons nous placer dans le cadre où la séparatrice devrait être une droite.

**Exercice sur papier** :
- À partir de la formule de Bayes, déterminer à quelles conditions sur les paramètres des deux gaussiennes considérées, la séparatrice est effectivement une droite.
- Montrer que dans ce cas, la probabilité d'appartenir à la classe 1 peut se mettre sous la forme suivante, avec $w$ un vecteur à deux dimensions et $b$ un scalaire :

\begin{equation}
p(x) = \frac{1}{1 + e^{- (w^{T}.x + b)}}
\end{equation}

La fonction suivante est appelée fonction sigmoïde :

\begin{equation}
\sigma(x) = \frac{1}{1 + e^{-x}}
\end{equation}

**Exercice** : Pour un vecteur $X$ de dimension $(N_{exemples},2)$, un vecteur $w$ de dimension 2 et un scalaire $b$, codez cette fonction sigmoïde.

**Hint** : Attention aux vecteurs à trop grandes valeurs, l'exponentielle pourrait ne pas les gérer. Il est possible de passer par la fonction tangente hyperbolique.

In [None]:
def sigmoide(x):
    
    sigm = 0.5+0.5*np.tanh(x/2)

    return sigm

**Vérification** : Exécutez la cellule suivante

In [None]:
#NE PAS MODIFIER

X = np.array([-1000000000.,-100.,-2.,-0.5,0.,0.5,2.,1000.,100000000.,10**10])

print(sigmoide(X))

**Exercice** : Pour un vecteur $X$ de dimension $(N_{exemples},2)$, un vecteur $w$ de dimension 2 et un scalaire $b$, codez la probabilité définie précédemment.

In [None]:
def proba_sigmoide(X,w,b):
    
    scal = np.dot(w,X.T) + b
    
    p = sigmoide(scal)
    
    return p
    

**Vérification** : Exécutez la cellule suivante

In [None]:
#NE PAS MODIFIER

w = np.array([0.5,-0.2])

b = 0.3

X = np.array([[0.5,-0.2],[0.8,0.7],[1.,3.],[4.,4.],[-10.,10.]])

print(proba_sigmoide(X,w,b))

Nous allons maintenant générer un jeu de données et effectuer une régression logistique pour trouver les deux paramètres $w$ et $b$ qui permettent de séparer au mieu les données générées. Nous reprendrons les paramètres des gaussiennes ci-dessous pour générer nos données d'entraînement.

In [None]:
#NE PAS MODIFIER

mu_x_1 = -0.5
mu_y_1 = 0.7
sigma_x_1 = 0.3
sigma_y_1 = 0.3
rho_1 = -0.

mu_x_2 = 2.
mu_y_2 = 0.1
sigma_x_2 = 0.3
sigma_y_2 = 0.3
rho_2 = -0.

Évidemment, dans un cas d'apprentissage normal, ces paramètres des gaussiennes sont inconnus, nous n'avons à disposition que les données d'entraînement sans savoir quel processus de génération ces données suivent.

**Exercice** : Coder la fonction ci-dessous, qui à partir des paramètres des gaussiennes, génèrent un jeu de données labellisés. Plus précisément, le vecteur $X_{train}$ doit contenir $N_{1}$ valeurs tirées suivant la première loi et $N_{2}$ valeurs tirées suivant la deuxième loi. Le vecteur $Y_{train}$ doit être de même longueur que $X_{train}$. Pour chaque élement $i$ de $Y_{train}$, on doit avoir :
- $Y_{train_{i}}$ = 1 si $X_{train_{i}}$ est tiré suivant la première gaussienne
- $Y_{train_{i}}$ = 0 si $X_{train_{i}}$ est tiré suivant la deuxième gaussienne

**Hint** : La fonction np.concatenate pourra être utile.

In [None]:
def genere_dataset(N_1,N_2,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2):
    
    data_gen_1 = np.random.multivariate_normal(moy(mu_x_1,mu_y_1),cov(sigma_x_1,sigma_y_1,rho_1),N_1)
    data_gen_2 = np.random.multivariate_normal(moy(mu_x_2,mu_y_2),cov(sigma_x_2,sigma_y_2,rho_2),N_2)
    
    X_train = np.concatenate((data_gen_1,data_gen_2))
    
    Y_train = np.zeros((N_1+N_2))
    
    Y_train[:N_1] = 1
    Y_train[N_1:] = 0
    
    return X_train, Y_train

**Vérification** : Exécutez la cellule suivante. Elle vérifie principalement les dimensions des bases que vous avez générées et la cohérence de la labellisation avec le nombre d'éléments. S'il y a une erreur dans la génération aléatoire, elle ne pourra pas être détectée ici.

In [None]:
#NE PAS MODIFIER CETTE CELLULE

N_1 = 1000
N_2 = 2000

X_train, Y_train = genere_dataset(N_1,N_2,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2)

print("Cohérence de la dimension de X_train : " + str(np.shape(X_train) == (N_1+N_2,2)))
print("Cohérence de la dimension de Y_train : " + str(np.shape(Y_train) == (N_1+N_2,) or np.shape(Y_train) == (N_1+N_2,1)))
print("Cohérence de la labellisation : " + str(np.sum(Y_train) == N_1))

Nous allons maintenant effectuer une régression pour calculer, à partir des données générées, la valeur de $w$ et de $b$. Pour cela, nous allons chercher à maximiser la vraisemblance des données.
Dans notre cas, nous recherchons la probabilité qu'une donnée soit générée par l'une ou l'autre des gaussiennes en fonction de ses coordonnées. La régression logistique doit prédire cette probabilité $p$ à partir de l'exemple $x$ et des paramètres $w$ et $b$, nous la noterons alors $p(x,w,b)$ qui de la forme définie plus haut : 

\begin{equation}
p(x,w,b) = \frac{1}{1 + e^{- (w^{T}.x + b)}}
\end{equation}

Soit un jeu de données $(X,Y)$ et deux paramètres $(w,b)$. La vraisemblance de nos paramètres $w$ et $b$ pour une seule donnée $(x_i,y_i)$ est donnée par la loi de Bernouilli de paramètre $p_i(w,b)$ :

\begin{equation}
l_i(w,b) = p_i(x_i,w,b)^{y_i}(1-p_i(x_i,w,b))^{1-y_i}
\end{equation}

La vraisemblance pour l'ensemble de la base de données est le produit des vraisemblances sur chaque exemple individuel : 

\begin{equation}
L(w,b) = \prod_{i}p_i(x_i,w,b)^{y_i}(1-p_i(x_i,w,b))^{1-y_i}
\end{equation}

L'objectif de la régression logistique est de trouver les paramètres $w$ et $b$ qui maximisent cette vraisemblance. Pour simplifier le calcul, il est courant de minimiser plutôt la négative log-vraisemblance moyenne, plus facile à manipuler car le produit devient alors une somme de la forme suivante :

\begin{equation}
Loss(w,b) = -\frac{1}{N}\sum_{i}{y_i}\log(p_i(x_i,w,b)) + (1-y_i)\log(1-p_i(x_i,w,b))
\end{equation}

Cette expression s'appelle l'entropie croisée binaire (binary cross-entropy).


**Exercice** : Codez cette fonction de coût pour des exemples $Y$ et un vecteur de prédiction $p$.

**Hints** :
- Faites attention au cas où p = 0 ou p = 1, le logarithme risque de renvoyer une erreur, prévoyez une valeur epsilon pour éviter cette condition de bord. La fonction np.clip devrait vous aider.

In [None]:
def bce(Y,p):
    
    epsilon = 1e-5
    
    p_clip = np.clip(p,epsilon,1-epsilon)
    
    bce = -np.mean(Y*np.log(p_clip) + (1-Y)*np.log(1-p_clip))
    
    return bce

**Vérification** : Exécutez la cellule suivante

In [None]:
Y1 = np.array([1,0,1])
p1 = np.array([0.8,0.1,0.7])

print(bce(Y1,p1))

Y2 = np.array([1,0,1])
p2 = np.array([0.4,0.9,0.5])

print(bce(Y2,p2))

Y3 = np.array([1,0,1])
p3 = np.array([0.,0.4,0.3])

print(bce(Y3,p3))


Pour minimiser cette fonction, nous allons effectuer une descente de gradient. Cela consiste à calculer le gradient de cette fonction par rapport aux paramètres $w$ et $b$ et de mettre à jour les paramètres $w$ et $b$ en suivant la direction opposée au gradient. En effet, comme le gradient indique la direction vers laquelle la fonction augmente, il suffit d'en suivre la direction opposée pour minimiser la fonction (des hypothèses de convexité sont aussi nécessaires, mais dépassent le cadre de ce TP).

La mise à jour des paramètres s'effectue alors de la manière suivante :

\begin{equation}
w := w - \lambda\frac{\partial Loss}{\partial w} \\
b := b - \lambda\frac{\partial Loss}{\partial b}
\end{equation}

$\lambda$ est un terme qu'on appelle le taux d'apprentissage. Il permet de pondérer la distance que l'on parcourt en ajustant les paramètres (la dérivée donne seulement la direction, on peut ensuite aller plus ou moins loin suivant cette direction).

**Exercice sur papier** : Calculer les deux dérivées : $\frac{\partial Loss}{\partial w}$ et $\frac{\partial Loss}{\partial b}$.

**Hint** : Une des propriétés de la fonction sigmoïde, que vous pouvez démontrer, est la suivante :

\begin{equation}
\sigma'(x) = \sigma(x)(1-\sigma(x))
\end{equation}

**Exercice** : Programmer une descente de gradient pour minimiser cette fonction de coût sur les paramètres $w$ et $b$.

**Guide** :
- Générer un dataset avec 1000 exemples pour chaque gaussienne en utilisant les paramètres ci-dessous
- Initialiser les paramètres $w$ et $b$
- Dans une boucle, mettez à jour les paramètres suivant la descente du gradient. Pour le taux d'apprentissage, 1e-1 devrait être une bonne valeur pour commencer. Le nombre d'itération peut être quelques milliers.
- Il sera intéressant de calculer la fonction de coût bce au fur et à mesure pour ensuite tracer son évolution.

In [None]:
#NE PAS MODIFIER

mu_x_1 = -0.5
mu_y_1 = 0.7
sigma_x_1 = 0.3
sigma_y_1 = 0.3
rho_1 = -0.

mu_x_2 = 2.
mu_y_2 = 0.1
sigma_x_2 = 0.3
sigma_y_2 = 0.3
rho_2 = -0.

In [None]:
N_1 = 1000
N_2 = 1000

X_train, Y_train = genere_dataset(N_1,N_2,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2)

w = np.array([0.,0.])
b = 0.

epochs = 10000

lambd = 1.

bce_list = []

for i in range(epochs):
    Y_hat_cur = proba_sigmoide(X_train,w,b)
    bce_list.append(bce(Y_train,Y_hat_cur))
    w -= np.mean((lambd*X_train*np.reshape((Y_hat_cur-Y_train),(N_1+N_2,1))),axis = 0)
    b -= np.mean(lambd*(Y_hat_cur-Y_train))


**Exercice** : Tracez l'évolution de la fonction de coût

In [None]:
plt.plot(bce_list)
plt.xlabel("Nombre d'itérations")
plt.ylabel("Valeur de la fonction de coût")
plt.title("Evolution de la fonction de coût")

**Vérification** : La fonction de coût doit décroître et tendre vers 0.

**Exercice sur papier** : Déterminez avec la formule de Bayes les valeurs de $w$ et $b$ attendue.

**Exercice** : Calculez ces valeurs et comparez-les aux valeurs de $w$ et $b$ que vous avez obtenu par apprentissage.

In [None]:
w_attendu = -(np.array([mu_x_2/sigma_x_2**2 - mu_x_1/sigma_x_1**2,mu_y_2/sigma_y_2**2 - mu_y_1/sigma_y_1**2]))

b_attendu = -(- 0.5*mu_x_2**2/sigma_x_2**2 - 0.5*mu_y_2**2/sigma_y_2**2 + 0.5*mu_x_1**2/sigma_x_1**2 + 0.5*mu_y_1**2/sigma_y_1**2 - 0.5*np.log(sigma_x_1*sigma_y_1)+0.5*np.log(sigma_x_2*sigma_y_2))

In [None]:
#NE PAS MODIFIER

print("Valeur de w prédite : " + str(w))
print("Valeur de w attendue : " + str(w_attendu))

print("Valeur de b prédite : " + str(b))
print("Valeur de b attendue : " + str(b_attendu))



**Exercice** : Tracez la carte de probabilité attendue avec la formule de Bayes (prior de 0.5) puis celle obtenue avec votre prédiction. Tracez par dessus le jeu d'entraînement.

**Hint** : Pour votre prédiction, utilisez la fonction proba_sigmoide avec les paramètres $w$ et $b$ que vous avez déterminés.

In [None]:
x = np.linspace(-5,5,1000)
y = x*1.
x, y = np.meshgrid(x,y)

x2 = np.reshape(x,np.shape(x)[0]*np.shape(x)[1])
y2 = np.reshape(y,np.shape(y)[0]*np.shape(y)[1])

X = np.zeros((np.shape(x2)[0],2))

X[:,0] = x2
X[:,1] = y2

p = bayes(X,mu_x_1,mu_y_1,sigma_x_1,sigma_y_1,rho_1,mu_x_2,mu_y_2,sigma_x_2,sigma_y_2,rho_2,prior_1)
p = np.reshape(p,(1000,1000))

fig, ax = plt.subplots(1,figsize = (16,9))
plt.pcolormesh(x,y,p,cmap = "hot")
plt.colorbar(label = "Densité de probabilité")
plt.scatter(X_train[:N_1,0],X_train[:N_1,1],marker = "x",color = "blue")
plt.scatter(X_train[N_1:,0],X_train[:N_1:,1],marker = "x",color = "orange")
plt.xlabel("Axe X")
plt.ylabel("Axe Y")
ax.set_aspect("equal")

In [None]:
x = np.linspace(-5,5,1000)
y = x*1.
x, y = np.meshgrid(x,y)

x2 = np.reshape(x,np.shape(x)[0]*np.shape(x)[1])
y2 = np.reshape(y,np.shape(y)[0]*np.shape(y)[1])

X = np.zeros((np.shape(x2)[0],2))

X[:,0] = x2
X[:,1] = y2

p = proba_sigmoide(X,w,b)
p = np.reshape(p,(1000,1000))

fig, ax = plt.subplots(1,figsize = (16,9))
plt.pcolormesh(x,y,p,cmap = "hot")
plt.colorbar(label = "Densité de probabilité")
plt.scatter(X_train[:N_1,0],X_train[:N_1,1],marker = "x",color = "blue")
plt.scatter(X_train[N_1:,0],X_train[:N_1:,1],marker = "x",color = "orange")
plt.xlabel("Axe X")
plt.ylabel("Axe Y")
ax.set_aspect("equal")