Compétence M7 | portfolio

M7 : Mettre en œuvre les méthodologies et les outils nécessaires aux différents champs
d’action de l’organisation en les appliquant

à la gestion de projets informatiques ; au développement logiciel ; au déploiement et à l’exploitation
des systèmes d’information ; à la gestion des risques ; à la gestion d’entreprise.

Niveau actuel : Avancé

Niveau visé : Hautement spécialisé

En fonction des projets déterminés autour de l’« Intégration de services dans un écosystème », connaître, appliquer et mettre en œuvre les méthodologies et les outils adaptés
Adopter un regard critique sur ces méthodologies et outils
Connaître les principaux concepts mathématiques nécessaires à la Data Science et
savoir les appliquer dans un cas d’utilisation du Machine Learning
Mots-clés : Intégration, DLM, cartographie, processus, Web Services, automatisation,
…

Pour cette compétence, nous allons aborder le projet Hackathon et les choix que nous avons faits. Le projet Hackathon nous a demandé d’apprendre de nouvelles technologies et outils. Nous avons par exemple pu nous initier aux technologies de la blockchain (LI Maxime) et aux services décentralisés. Nous avons pu pratiquer avec des solutions émergentes qui se profilent pour être leaders dans un futur proche, notamment web5. Mais c’est principalement sur les méthodologies et outils de gestion de projet que nous avons adapté nos choix. Nous avons opté pour une gestion de projet Kanban avec moins d’éléments Scrum car nous n’y voyons aucune valeur ajoutée sur notre travail et plus une masse de travail en plus. Notre confiance et nos valeurs ont permis de mieux se concentrer sur les aspects techniques que de gestion. Nous avons su nous adapter et avoir un regard critique sur nos méthodes de travail afin de les adapter ou nous les approprier.

Nous avons aussi choisi de réaliser une session de formation entre nous afin de couvrir les mathématiques liées à cette compétence. Malheureusement, nous n’avons pas pu pratiquer de data science ce semestre, nous nous désolons quand même d’avoir les notions de base. Nous avons réalisé une formation Udemy sur les probabilités et les statistiques. Nous avons séparé les sujets en 4 parties équivalentes que chaque étudiant a pu réaliser et ensuite rédiger un rapport transmissible. Voici les 4 sujets traités :

Introduction aux données : Les données sont des informations brutes recueillies à partir de différentes sources. Elles peuvent être mesurées à l’aide de différentes méthodes statistiques. La différence entre une population et un échantillon réside dans le fait qu’une population est l’ensemble complet d’éléments dont on cherche à tirer des informations, tandis qu’un échantillon est une petite partie de cette population. La mesure de tendance permet de déterminer le centre des données, tandis que la mesure de dispersion donne une idée de la variabilité des données. L’écart-type est une mesure de la dispersion qui indique la distance moyenne entre chaque valeur de données et la moyenne de l’ensemble des données.

Probabilités : Les probabilités sont utilisées pour quantifier le risque associé à un événement. Les calculs de probabilité impliquent des concepts tels que les permutations et les arrangements (avec et sans répétition), les combinaisons, les intersections et les unions. La probabilité conditionnelle est la probabilité d’un événement A sachant qu’un autre événement B est déjà arrivé, tandis que le théorème de Bayes est utilisé pour mettre à jour les probabilités des événements à la lumière de nouvelles informations.

Distributions de probabilité : Les distributions de probabilité sont des fonctions qui décrivent la manière dont les valeurs d’une variable aléatoire se répartissent autour de sa moyenne. Elles incluent des types de distributions comme la distribution uniforme, la distribution binomiale, la distribution de Poisson, la distribution normale, et les scores Z.

Statistiques : Les statistiques sont des outils utilisés pour analyser et interpréter les données. Elles incluent des concepts comme l’échantillonnage, qui concerne le processus de sélection d’un sous-ensemble d’observations à partir d’une population plus grande, l’erreur type, qui est une mesure de la précision d’une estimation, le théorème central limite, qui décrit la forme approximative de la distribution des moyennes de grands ensembles d’échantillons indépendants et identiquement distribués, les tests statistiques, qui sont utilisés pour tirer des conclusions sur une population à partir d’échantillons, le seuil de signification, qui est une valeur qui indique si les résultats d’un test sont suffisamment significatifs pour être considérés comme valides, et les erreurs de type 1 et de type 2, qui sont des erreurs commises dans les tests statistiques.

Je me suis occupé de la partie sur les probabilités. La réalisation n’était pas spécialement compliquée, mais la rédaction d’un rapport l’était davantage. Je me suis plutôt concentré sur l’utilisation de formules que sur des explications détaillées sur les formules. Par exemple, nous pouvons apprendre comment calculer une probabilité :

Une société a fabriqué un total de 50 valves de trompette. Il est établi que l’une des valves était défectueuse. Si trois valves vont dans une trompette, quelle est la probabilité qu’une trompette ait une valve défectueuse ?

Concernant le Machine Learning, nous n’avons pas eu de projet en contenant mais nous avons pu nous y initier lors de la conférence DSC et lors d’AR. J’ai suivi une conférence présenté par Bosch sur : DataOps & MLOpsem utilisant kubernetes.

Mon camarade Roald à aussi réalisé un AR sur les Machine Learning Algorithms. Un AR très complet qui prend pour éxperience un tuto qui a été réalisé lors du voyage apprenant. un point qui explique bien ces algorithmes est la comparaison avec la nature dans l’algorithme Ant-Colony Optimization (ACO) :

Les fourmis sont un exemple fascinant d’intelligence de foule et nous allons examiner leur méthode de recherche de nourriture.

Lorsque les fourmis trouvent de la nourriture, elles laissent une trace spécifique de phéromones indiquant aux autres fourmis la présence de la nourriture et les guidant vers cette source. Au fil du temps, de plus en plus de fourmis empruntent ce chemin, augmentant le niveau de phéromones présentes et attirant de plus en plus de fourmis. Cette boucle de rétroaction positive aidera naturellement à éliminer les chemins faux ou non optimisés et à ne laisser que les meilleurs et les plus courts chemins jusqu’à ce qu’une nouvelle source de nourriture soit trouvée ou que cette dernière s’épuise.

Dans le contexte de l’UL, l’ACO peut être utilisé pour trouver des motifs ou des structures spécifiques dans les données, par exemple en regroupant des points de données. Chaque groupe peut être considéré comme une source de nourriture et chaque fourmi comme un point de données spécifique. Les fourmis se déplaceront aléatoirement dans l’espace, laissant des traces à mesure qu’elles avancent. Lorsqu’une fourmi atteint un groupe correct, elle laissera une trace de phéromones et incitera d’autres fourmis à venir à ce groupe. Au fil du temps, les groupes deviennent de plus en plus peuplés, indiquant que ces zones de données sont susceptibles d’être similaires.