Deep4Deep un projet 100% data en collaboration avec BPI

Après 7 semaines de bootcamp en Data Science, les deux dernières semaines sont consacrées à un projet de groupe qui est présenté lors du Demo Day. Retour sur le projet de Catherine, Florent et Clémence : Deep4Deep en collaboration avec les équipes de BPIfrance pour déterminer si une entreprise est deeptech ou pas !
Sommaire

Quel est ton parcours et pourquoi as tu souhaité te former à la data science ? 

Catherine : Depuis ma sortie d’école en 2014, j’ai occupé différents postes dans les services financiers (analyste en financement d’acquisition, inspectrice bancaire, consultante). Bien qu’ayant des responsabilités différentes, ces postes nécessitaient de manipuler des données afin de sortir des analyses critiques. Face aux difficultés rencontrées lors des récupérations de données et à l’importance grandissante de la data au sein des entreprises, j’ai décidé d’apprendre à coder en Python lors du premier confinement pour me former à la data science.

Florent : Je suis ingénieur matériaux dans l’industrie pour l’entreprise Saint-Gobain. Pendant un congé parental j’ai décidé de me former à la programmation (via des MOOCs) et à la data. Je souhaitais combiner ma connaissance des procédés industriels avec celles de la data science afin d’améliorer nos lignes de production.

Clémence :
 Mes études initiales étaient dans l'informatique, mais ensuite je ne l'ai pas pratiquée pendant longtemps. Depuis un an ou deux je m'étais mise à python, occasionnellement, en support de mon métier de conseil en transformation digitale. Rejoindre le Wagon était une façon de dépasser le "occasionnellement" et d'aller un peu plus loin.


Peux-tu résumer la démarche que vous avez suivi pour réaliser votre projet ? 

Florent : Notre projet Deep4Deep était en collaboration avec BPIfrance  et avait pour objectif de déterminer si une entreprise est deeptech ou pas. Pour réaliser ce projet, nous avons utilisé des données sur les entreprises deeptech consultables par API et des données que nous avons scrappé sur le web : description textuelle de ces entreprises, profils des employés sur LinkedIn. Nous avons ensuite appliqué des modèles de classification (algorithme Random Forest) et de réseau de neurone pour les données textuelles, avec un vote final.

Clémence : Nous avons "fait voter" deux types de modèles travaillant sur deux types de données différentes. Un modèle principal que Florent a décrit,  dont certaines données au moins sont toujours disponibles et qui a donc toujours un avis sur le diagnostic qu'on lui demande (est-ce qu'une startup donnée est une deep tech ?). Et un modèle secondaire qui analyse uniquement la description de la startup à partir de deux sources (Dont  Florent a parlé et qui sapphire sur un  réseau de neurones).

Clémence en pleine préparation de son speech au demo day.

Ce second modèle n'a pas toujours d'opinion, car il arrive que nous deux sources de données soient vides, mais quand il en a une, c'est la qu'on associe les réponses de nous deux modèles. Et on peut les associer de façon différente selon l'objectif : si on veut maximiser le recall, par exemple pour attribuer des financements où on veut considérer toutes les entreprises potentiellement éligibles, on prend le minimum, si au contraire on veut maximiser la précision, par exemple pour faire une veille seulement sur les entreprise étrangères qui sont très probablement des deep techs, on prend le maximum. Et pour un équilibre, on les "fait voter" de manière égalitaire.

Le second modèle, celui qui évaluait le texte, faisait du "transfer learning", en ce qu'il s'appuyait sur un modèle déjà entraîné sur un corpus d'articles de news et Wikipedia. Ça nous a posé pas mal de problèmes pour le déployer sous forme d'API sur un container docker sans qu'il ne recharge ce corpus à chaque fois, ce qui le rendait trop lent. Pour être honnête, sur ce point précis on n'aurait jamais réussi sans un coup de main sérieux des teachers du Wagon 

Qui était les membres de ton équipe et comment vous-êtes vous organisé.e.s ?

Florent : Catherine, Clémence et moi-même constituions l'équipe, avec une forte implication de notre client Nicolas Tournaud de la BPI. Nous avons pu répartir très efficacement nos actions entre l’amélioration du modèle utilisé par le groupe précédent, l’apport de données nouvelles sur les profils des employés des entreprises, et la classification des données textuelles par réseau de neurones. Nous avons tout branché ensemble 2h avant la présentation finale !

Catherine : Pour compléter la réponse de Flo, le suspense était à son comble lors du Demo Day. On a fini le branchement des modèles tout en préparant la présentation. C'était la course jusqu’au dernier moment. Malgré tous les bugs de dernières minutes, on s’en est sorti ! Le bon état d’esprit dans l’équipe a beaucoup aidé. 

Clémence : Tout a été dit, j'ajouterai juste que l'ambiance était excellente et que je considère les membres de l'équipe comme des amis depuis ce sprint.

Quels sont tes projets pour la suite ?

Florent : Saint-Gobain m’a proposé un poste de responsable data-science pour les lignes industriels de revêtement de couche d’isolation thermique et de contrôle solaire pour le vitrage, des procédés et produits sur lesquels j’ai réalisés des développements R&D dans mes postes précédents. Désormais je vais traiter de ces mêmes sujets mais sous l’angle de la data.

Clémence : J'ai repris un poste de conseil en stratégie de transformation digitale, qui est un métier que j'adore, dans un cabinet super et très humain, Kearney.
Je ne pratique donc pas beaucoup la data science, mais l'expérience Wagon reste précieuse tant pour ce qu'elle m'a appris sur les bonnes pratiques de collaboration et de scaling, que pour les moments où python peut bien aider dans l'analyse de données ou le prototypage de solutions les de missions de conseil et ça a été un excellent moment.

Catherine : En parallèle de ma recherche de poste en Data Science, je suis TA pour le batch 552. J’ai aussi rejoint la grande famille de Data for Good afin de participer à des projets mettant la data au service de la société. L’idée est de continuer à pratiquer le code, à renforcer les bases enseignées par le Wagon et à acquérir davantage de connaissances sur la data. 


Un conseil à donner aux personnes qui souhaitent suivre la formation ?

Clémence : À ceux.celles qui voudraient rejoindre la formation Data Science du Wagon et qui hésitent : allez-y, ça vaut le temps et l'investissement. À ceux.celles qui se sont déjà engagé.e.s : dégagez au maximum votre temps pour en profiter complètement, conseil venant de quelqu'un qui a passé des entretiens en même temps et a regretté de rater quelques bons moments !

Florent : C’est très utile d’avoir déjà une bon niveau de programmation. Je conseille de faire le MOOC de Harvard CS50-Introduction à la programmation, dont les exercices de code (ne pas se contenter des vidéos !) qui sont d’un niveau assez élevé, et pourquoi pas un 2ème MOOC de follow-up également d'Harvard.

Catherine : Ayez de bonnes bases en Python pour pouvoir se concentrer sur les sujets de Machine Learning et Deep Learning pendant le bootcamp. Les exercises comme les katas de Codewars, sont importants pour assimiler le langage. Enfin “Practice makes perfect. After a long time of practicing, our work will become natural, skillfull, swift, and steady.” — Bruce Lee
Les internautes ont également consulté :
Pour développe mes compétences
Formation développeur web
Formation data scientist
Formation data analyst
Les internautes ont également consulté :

Suscribe to our newsletter

Receive a monthly newsletter with personalized tech tips.