Aller sur lewagon.com

Djinews et Catch a Fish, 2 projets du bootcamp Data Science

Après 9 semaines intensives à coder en Python et à gérer des données. Anne-Marie et Christophe, alumni de la 2e promotion en Data Science du Wagon Paris, ont développé les dix derniers jours du bootcamp deux projets : Catch a Fish et Djinews. Retour sur les différentes étapes qui leur ont permis de les réaliser et de les présenter lors du Demo Day.
Sommaire

Quel est ton parcours et pourquoi as-tu souhaité te former à la data science ? 

Anne-Marie : Je n’ai pas un parcours très classique pour un.e étudiant.e du Wagon. J’ai d’abord été professeure des Sciences de la Vie et de la Terre en collège puis conseillère en formation continue au rectorat de Versailles. Je faisais partie du service qui conçoit et met en oeuvre le plan de formation des personnels de l’académie. C’est là où je me suis découvert une appétence très forte pour la data science et la programmation.

En effet, le service devait concevoir, mettre en oeuvre puis évaluer plusieurs milliers de stages par an. Or j’aime programmer depuis très longtemps et j’avais déjà suivi des cours de développement mobile et android au CNAM. C’est donc tout naturellement que j’ai commencé à automatiser avec VBA et parfois python des tâches simples comme l’insertion des candidatures dans notre base de données. Je m’occupais aussi d’une partie des requêtes et statistiques réalisées en interne. J’ai choisi de participer au bootcamp data science pour développer des compétences de data analyst et aussi découvrir le monde des start-ups. Et puis, la double compétence administrative/numérique me semblait un atout indispensable pour devenir un cadre administratif dans la fonction publique. 

Nous avons donc choisi de combiner deux types d’approches : l’utilisation de la technique de Data Augmentation et le Transfert Learning. 

Christophe : J'ai fait un Master en «Finance & Investments» à Rotterdam School of Management et un Master en «Big Data et Business Analytics» à l'ESCP Europe. J'ai également eu quelques expériences en conseil dans le domaine de la transformation digitale. Mon deuxième Master et mon expérience professionnelle m'avaient déjà donné quelques bases en data science. Le bootcamp en data science du Wagon m'a servi de complément par rapport à mon Master pour solidifier mes compétences techniques et agrandir mon réseau dans la data à Paris.

Peux-tu résumer la démarche que vous avez suivie pour votre projet ? 

Christophe : L'idée était d'utiliser des news pour prédire le stock market et créer une application de recommandation pour les investisseurs. Le dataset existait déjà sur un challenge Kaggle et on a scrappé les données manquantes pour pouvoir faire des prédictions en live. On a créé un modèle qui classifie les top des 25 news de chaque jours, dans 5 variables, selon :

- L'objectivité
- La subjectivité
- La neutralité
- Si c'est positif ou négatif.

Ces variables ont été utilisées dans un modèle de type linéaire (Linear Discriminant Analysis). Au final, notre modèle a été capable de prédire 8 fois sur 10, si le cours de la Bourse de la journée allait augmenter ou diminuer.

Anne-Marie : Notre projet “catch a fish !” consistait à créer une application qui permettait d’identifier des poissons à partir de leur photographie. Je suis photographe animalier amateur et le domaine de la reconnaissance d’images m’a toujours intéressée. L’idée m’est venue en observant des visiteurs dans les aquariums. J’avais envie de proposer une nouvelle forme de visite avec un aspect ludique très marqué, sur le modèle d’une chasse au trésor. 

Le déploiement sur GCP (Google Cloud Platform) n’a pas été simple mais nous disposons maintenant des compétences nécessaires pour l’utiliser dans nos futurs projets. 

La principale difficulté était de trouver suffisamment d’images pour pouvoir entraîner le modèle de deep learning utilisé pour la reconnaissance d’images car nous n’avons pas trouvé de dataset tout prêt. C’est pourquoi nous avons utilisé la recherche d’images de google avec une extension de google chrome qui permet d’automatiser en partie le téléchargement. Il nous a fallu quasiment trois jours pour nettoyer les données : éliminer les doublons et vérifier les identifications. Cela nous a permis de récupérer environ 80 images pour 11 espèces de poissons différentes. Ce nombre d’images n’était pas suffisant pour obtenir un modèle avec un bon taux de reconnaissance. Nous avons donc choisi de combiner deux types d’approches : l’utilisation de la technique de data augmentation et le transfert learning. 

La première consiste à créer des images modifiées à partir des images de notre dataset (en jouant sur le zoom, la rotation, ou bien le décalage du sujet). La seconde est basée sur un réseau de neurones VGG16 qui a déjà été entraîné sur des milliers d’images. Nous avons ajouté à ce réseau des couches supplémentaires pour le spécialiser dans la reconnaissance de poissons. Cela a bien fonctionné et nous avons obtenu un score de 70%. 

Qui étaient les membres de ton équipe et comment vous êtes vous organisé.e.s ?

Anne-Marie : Notre équipe était composée de 4 personnes : Dany, Paul-Emmanuel, Pauline et moi. Nous avons commencé par un brainstorming pour définir notre produit final : les fonctionnalités de base obligatoires et les fonctionnalités optionnelles. Puis nous avons essayé de paralléliser le maximum de tâches. Par exemple, Dany et moi avons collecté les images pendant que Paul-Emmanuel et Pauline codaient notre premier modèle.

Nous avons fait au minimum deux réunions tous les jours : une le matin afin de nous répartir les tâches et une autre le soir pour faire le point sur l’avancement du projet. Très souvent, nous avons fait un point intermédiaire de mi-journée quand nous rencontrions un problème ponctuel. Nous avons utilisé Trello comme outil de gestion de projet. Je garde de très bons souvenirs de cette période de projet. Bien sûr, il y a eu des moments de stress, surtout au début quand nous avons eu du mal à collecter suffisamment d’images. Nous avons beaucoup appris sur le deep learning et sur la mise en production. Le déploiement sur GCP (Google Cloud Platform) n’a pas été simple mais nous disposons maintenant des compétences nécessaires pour l’utiliser dans nos futurs projets. Nous avons aussi réalisé beaucoup de progrès dans l’utilisation de Github. 

Christophe : Les membres de mon équipe étaient Claire, Matthieu et Jean-Philippe. Notre projet est un bon exemple de comment un projet peut avoir du succès, même si tous les membres sont à distance. Avec des zooms quotidiens et de la confiance, la distance ne nous a pas empêchée de bien travailler en équipe.
Christophe et son projet : Djinews

Quels sont tes projets pour la suite ?

Christophe : Pour le moment, je suis Teacher Assistant au Wagon à Paris et à Londres et j'ai quelques petites missions en freelance avec une amie. En parallèle, je cherche un poste en tant que data analyst et data scientist. Sur le long terme, j’aimerais bien utiliser la data pour rendre le monde plus écologique.

Anne-Marie : Je compte continuer à développer mes compétences en data science. J’ai pour projet de développer un système de comptage automatique d’oiseaux à la mangeoire.

J’espère aussi pouvoir utiliser mes nouvelles compétences de data analyst dans le domaine professionnel. Il me reste encore à passer et réussir des concours pour devenir cadre administratif dans la fonction publique. J’ai aussi un rêve qui serait de créer une start-up d’Etat dans les prochaines années. 


Un conseil à donner aux personnes qui souhaitent suivre la formation ?

Anne-Marie : Je conseille aux nouveaux et nouvelles dans l’aventure du bootcamp Data Science d’apprendre très vite à lire les messages d’erreur : repérer quelle ligne du programme déclenche l’erreur ainsi que le type d’erreur.  Cela permet de résoudre une grande majorité des problèmes.

Et pour celles et ceux qui sont déjà à l’aise avec les messages d’erreur, se construire sa propre démarche de résolution de bugs. Par exemple, la mienne consistait à commencer par vérifier systématiquement les paramètres d’une fonction et le type de valeur qu’elle retourne. Ensuite, je passe à la vérification de structures de contrôle (boucle for, if/else).

Christophe : Just do it ! La data aujourd'hui et dans le futur va de plus en plus impacter chaque industrie et partie de notre vie. C'est le moment de se former aux métiers de la Data Science, et à mon avis, Le Wagon t'apprend toutes les choses essentielles dans un cadre enrichissant et stimulant.

Pour revoir tous les projets de ce Demo Day, ça se passe ici
Les internautes ont également consulté :
Pour développe mes compétences
Formation développeur web
Formation data scientist
Formation data analyst
Les internautes ont également consulté :

Suscribe to our newsletter

Receive a monthly newsletter with personalized tech tips.