Data Scientist · Data Analyst · Énergie & Industrie
Data Scientist avec une expérience terrain dans les secteurs énergie et industrie.
Je construis des solutions analytiques end-to-end : de l'exploration des données à la mise en production.
- Domaines : énergie, maintenance, finance, e-commerce, BI
- Approche : données simulées / anonymisées — aucune donnée confidentielle publiée
- Stack principale : Python · SQL · PySpark · scikit-learn · XGBoost · SHAP · Power BI
Tous les projets utilisent des données simulées ou anonymisées.
Aucune donnée confidentielle, propriétaire ou personnelle n'est publiée.
| Projet | Description | Stack | Lien |
|---|---|---|---|
| Efficacité Énergétique | Segmentation KMeans + prédiction IEP kWh/m² | pandas, sklearn, matplotlib | → Voir |
| Réseau de Chaleur | VAN/TRI + algorithme greedy d'optimisation | pandas, numpy | → Voir |
| Reporting Multi-KPIs | Pipeline 15 KPIs + alertes CRITIQUE/ATTENTION | pandas, matplotlib | → Voir |
| Projet | Description | Stack | Lien |
|---|---|---|---|
| SQL Analytique | CTE, Window Functions, cohort analysis | SQLite, pandas, sqlalchemy | → Voir |
| Modélisation Étoile | Star Schema, ROLLUP, Data Warehouse | SQLite, sqlalchemy | → Voir |
| Big Data PySpark | Broadcast join, Parquet, Window Functions | PySpark, pandas | → Voir |
| Projet | Description | Stack | Lien |
|---|---|---|---|
| Pipeline ML Production | Anti-leakage, GridSearchCV, joblib | sklearn, pandas | → Voir |
| Interprétabilité ML | SHAP, PDP/ICE, analyse erreurs | sklearn, shap | → Voir |
| Churn Bancaire | XGBoost + seuil optimisé PR-curve | xgboost, shap | → Voir |
| Fraude Bancaire | SMOTE + Isolation Forest — classe 0,17% | sklearn, imbalanced-learn | → Voir |
| Risque Crédit | Calibration + KS Statistic + équité | sklearn, scipy | → Voir |
| House Price | 5 modèles comparés, feature engineering | sklearn, xgboost | → Voir |
| Projet | Description | Stack | Lien |
|---|---|---|---|
| Segmentation Marketing | RFM + KMeans (K=5) + PCA + Power BI | sklearn, pandas | → Voir |
| Recommandation | SVD + CF user-based + cold start | sklearn, scipy | → Voir |
| Reinforcement Learning | Q-Learning ε-greedy, gestion énergie | numpy | → Voir |
| Projet | Description | Stack | Lien |
|---|---|---|---|
| YouTube/Netflix EDA | 100k vidéos simulées, storytelling data | pandas, seaborn | → Voir |
Langages Python · SQL · Bash
ML/DS scikit-learn · XGBoost · LightGBM · SHAP · imbalanced-learn
Data Eng. PySpark · SQLAlchemy · pandas · numpy
Viz & BI matplotlib · seaborn · Power BI
MLOps joblib · GitHub Actions
Bases de données SQLite · PostgreSQL (notions)
| Cas d'usage | Algorithme clé | Métrique |
|---|---|---|
| Efficacité énergétique | KMeans + RandomForest | R² = 0,89 |
| Churn bancaire | XGBoost | AUC = 0,87 · Recall = 0,79 |
| Fraude bancaire | SMOTE + XGBoost | PR-AUC = 0,81 |
| Risque crédit | GradientBoosting calibré | KS = 0,52 · Gini = 0,71 |
| House Price | GradientBoosting | R² = 0,91 · MAE = 18k€ |
| Recommandation | SVD factorisation | Precision@10 = 0,31 |
- Email : emmatsague@yahoo.fr
- LinkedIn : Emmanuel TSAGUE
- Localisation : France
Tous les projets de ce portfolio utilisent exclusivement des données simulées, synthétiques ou anonymisées. Aucune donnée réelle, confidentielle ou propriétaire n'est publiée.