Trouver une offreRecruteurs

Architecte IA

Opportunité exclusive

2 à 4 semaines

Télétravail, Hybride

Architecte IA

Visian

Architecte IA

Expertises

LLMs / Large language modelsIA

il y a 1 heure

Opportunité exclusive

Publié par un Top Recruteur

Partagez cette opportunité

Partagez cette opportunité à quelqu’un de votre réseau :
✓ Offrez-lui un boost de visibilité auprès du client.
✓ Aidez vos contacts à trouver leur prochain job.

Information importante


Type de contrat:

Freelance

Taux journalier :

800

Cette offre est à 0% de commission 🎉

Localisation :

Paris, France

Date de démarrage :

2 à 4 semaines

Mode de travail :

Télétravail, Hybride

Publié le :

16 juin 2026

Le besoin


Dans le cadre du développement et de l’encadrement des usages de l’Intelligence Artificielle générative au sein de la banque, le groupe souhaite renforcer ses capacités d’évaluation, de qualification et de sécurisation des LLM

Les LLMs sont amenés à être utilisés dans différents cas d’usage métiers, que ce soit pour l’assistance aux collaborateurs, l’analyse documentaire, la génération de contenus, l’aide à la décision, l’automatisation de processus ou l’exploitation de bases de connaissances internes. Leur adoption nécessite toutefois un cadre rigoureux afin de garantir leur performance, leur robustesse, leur sécurité, leur conformité et leur adéquation aux exigences du secteur bancaire.

La mission consiste à intervenir en tant que Data Scientist spécialisé dans l’évaluation des LLMs, afin de définir et mettre en œuvre des méthodologies d’évaluation, de benchmark et de red teaming des modèles IA générative utilisés, testés ou envisagés par le groupe.

Cette mission s’inscrit dans une démarche de gouvernance des modèles IA, de maîtrise des risques liés à l’IA générative et d’industrialisation des pratiques d’évaluation avant mise en production.

Les principaux objectifs de la mission sont les suivants :

- Définir et mettre en œuvre un cadre d’évaluation des LLMs adapté aux enjeux de la banque.

- Évaluer les performances, limites, risques et comportements des modèles IA générative.

- Réaliser des benchmarks comparatifs entre différents LLMs, qu’ils soient internes, open source ou fournis par des éditeurs.

- Concevoir et exécuter des campagnes de red teaming pour identifier les vulnérabilités, biais, hallucinations et comportements indésirables.

- Contribuer à la sélection, la validation et la qualification des modèles LLM avant usage ou mise en production.

- Produire des analyses objectives permettant d’éclairer les décisions métiers, techniques, risques et conformité.

- Participer à l’industrialisation des processus d’évaluation des LLMs dans le cycle de vie des modèles IA.

- Contribuer à la constitution de jeux de tests, métriques, référentiels d’évaluation et outils de suivi.

Évaluation des LLMs :

- Définir les protocoles d’évaluation adaptés aux cas d’usage IA générative de la banque.

- Identifier les métriques pertinentes pour mesurer la qualité des réponses générées : exactitude, pertinence, cohérence, complétude, factualité, robustesse, sécurité, explicabilité et conformité.

- Évaluer les capacités des modèles sur différents types de tâches : résumé, extraction d’information, classification, question-réponse, génération de texte, analyse documentaire, raisonnement, traduction ou reformulation.

- Mettre en place des jeux de tests représentatifs des usages métiers bancaires.

- Analyser les performances des modèles selon différents contextes, langues, domaines métiers et niveaux de complexité.

- Identifier les limites fonctionnelles et techniques des modèles testés.

- Documenter les résultats d’évaluation et formuler des recommandations.

Benchmark LLM :

- Concevoir et conduire des benchmarks comparatifs entre plusieurs modèles LLM.

- Comparer les modèles selon des critères de performance, coût, latence, robustesse, sécurité, empreinte technique et conformité.

- Tester différents modèles propriétaires, open source ou internes selon les contraintes du groupe.

- Mettre en place des grilles d’analyse permettant d’aider au choix des modèles selon les cas d’usage.

- Évaluer l’impact de différents paramètres : prompt, température, taille de contexte, modèle d’embedding, architecture RAG, fine-tuning ou quantization.

- Produire des rapports de benchmark clairs, exploitables par les équipes métiers, data, IT, sécurité et conformité.

- Participer à la définition de standards internes pour la comparaison et la qualification des LLMs.

Red teaming et sécurité des LLMs :

- Définir et exécuter des scénarios de red teaming adaptés aux risques liés à l’IA générative.

- Tester la résistance des modèles face aux attaques de type prompt injection, jailbreak, data leakage, contournement de garde-fous, génération de contenu inapproprié ou non conforme.

- Identifier les risques d’hallucination, de biais, de toxicité, de désinformation ou de réponses dangereuses.

- Concevoir des corpus de prompts adversariaux adaptés aux contextes bancaires et réglementaires.

- Évaluer la capacité des modèles à respecter les politiques internes, les règles de conformité et les contraintes de sécurité.

- Analyser les vulnérabilités détectées et proposer des mesures de mitigation.

- Collaborer avec les équipes sécurité, conformité, risques et architecture pour renforcer le cadre d’usage des LLMs.

Méthodologie, outillage et industrialisation :

- Mettre en place des outils, notebooks, scripts ou pipelines d’évaluation automatisée.

- Contribuer à l’industrialisation des campagnes d’évaluation dans le cycle de vie des modèles.

- Définir des référentiels de métriques et de seuils d’acceptabilité.

- Construire et maintenir des datasets d’évaluation internes, anonymisés et représentatifs.

- Participer à l’intégration des résultats d’évaluation dans les outils de gouvernance des modèles, notamment ModelHub v2.

- Assurer la traçabilité des campagnes d’évaluation, des versions de modèles et des résultats obtenus.

- Mettre en place des tableaux de bord ou rapports de suivi de la qualité des LLMs.

- Contribuer à la veille technologique sur les méthodes d’évaluation, frameworks de benchmark et pratiques de red teaming LLM.

Collaboration et accompagnement :

- Travailler avec les équipes data science, MLOps, métiers, risques, conformité, sécurité et IT.

- Accompagner les équipes projets dans l’évaluation de leurs cas d’usage IA générative.

- Participer à la définition des critères de go/no-go avant mise en production d’un modèle LLM.

- Présenter les résultats d’évaluation aux parties prenantes.

- Contribuer aux bonnes pratiques internes d’usage, de test et de validation des LLMs.

- Participer aux comités de validation ou de gouvernance IA lorsque nécessaire.

Les livrables attendus dans le cadre de la mission sont notamment :

- Cadre méthodologique d’évaluation des LLMs adapté aux usages bancaires.

- Protocoles de test et grilles d’évaluation des modèles IA générative.

- Jeux de tests et datasets d’évaluation documentés.

- Corpus de prompts de benchmark et de red teaming.

- Rapports d’évaluation des LLMs testés.

- Rapports de benchmark comparatif entre modèles.

- Analyses de risques liées aux comportements des LLMs.

- Synthèses des vulnérabilités identifiées lors des campagnes de red teaming.

- Recommandations de mitigation et plans d’amélioration.

- Tableaux de bord ou indicateurs de suivi de performance et de sécurité.

- Scripts, notebooks ou pipelines d’évaluation automatisée.

- Documentation des métriques, seuils et critères de validation.

- Recommandations pour la sélection et la mise en production des modèles.

- Contributions à l’intégration des résultats d’évaluation dans ModelHub v2 ou tout autre outil de gouvernance IA.

- Supports de présentation à destination des équipes métiers, techniques, risques et conformité.

Le Data Scientist spécialisé dans l’évaluation des LLMs devra permettre d’objectiver les performances des modèles, d’identifier leurs risques et limites, et de fournir aux instances de gouvernance les éléments nécessaires à une prise de décision éclairée, conforme aux exigences de sécurité, de conformité et de maîtrise des risques du secteur bancaire.

D'autres offres idéales pour vous !

Ces entreprises cherchent également d'excellents profils

ClubSec

Architecte IA

700

Freelance

Dans 2 à 4 semaines

92240 Malakoff, France

Hybride

Expertises

LLMs / Large language modelsIAGen IA

il y a 4 mois

Opportunité exclusive

Neovity

Architecte IA

Freelance

Urgent

Paris, France

Télétravail, Hybride

Expertises

IA

il y a 21 jours

Opportunité exclusive

Sapiens Group

🚨Business Analyst KYC & Intelligence Artificielle – Secteur Bancaire

450

Freelance

Urgent

Paris, France

Hybride

Expertises

- Forte appétence pour les technologies d'Intelligence Artificielle. - Connaissance des outils Low Code / No Code appréciée (Alteryx, Dataiku, Power Platform, etc.). - Expérience sur des projets de transformation digitale ou d'automatisation des processus. Linguistiques : - Anglais courant impératif (niveau C1 minimum

il y a 4 jours

Opportunité exclusive

Réseau professionnel conçu pour les talents

© 2026. Tous droits réservés.

Freelancers

Créer un profil

Rejoindre un collectif

Solutions et outils