Testeur QA IA Gen

Opportunité exclusive

2 à 4 semaines

Hybride

Testeur QA IA Gen

Salutech

Testeur QA IA Gen

Expertises

Test & QAIA

il y a 2 mois

Opportunité exclusive

Partagez cette opportunité

Partagez cette opportunité à quelqu’un de votre réseau :
✓ Offrez-lui un boost de visibilité auprès du client.
✓ Aidez vos contacts à trouver leur prochain job.

Information importante

Type de contrat:

Freelance

Taux journalier :

300

Cette offre est à 0% de commission 🎉

Localisation :

Paris, France

Date de démarrage :

2 à 4 semaines

Mode de travail :

Hybride

Publié le :

10 juin 2026

Le besoin

Missions

Stratégie et cadrage de la recette (20 %)

Définir la stratégie de recette et les plans de test associés à chaque cas d'usage RAG Agentique (cadrage fonctionnel et technique, critères d'acceptation, métriques d'évaluation).
Formaliser les jeux de tests, les golden sets et les protocoles d'évaluation propres à un système RAG : pertinence, fidélité (faithfulness), groundedness, hallucinations, robustesse aux prompts adverses, latence, coût.
Contribuer à la gouvernance qualité des 50+ cas d'usage : matrice de couverture, suivi de non-régression, rituels de validation, comités de mise en production.

Implémentation et exécution des recettes (80 %)

Scripting et automatisation des campagnes de test (Python principalement) : exécution massive, parallélisation, collecte de logs et de métriques.
Construction et maintenance des datasets de recette : extraction et préparation de corpus, parsing de documents hétérogènes (PDF, HTML, Office, scans OCR), chunking adapté aux uses cases.
Génération d'embeddings de test et validation des index vectoriels (recall@k, MRR, qualité de la similarité, taille de chunks, stratégies de fenêtrage).
Tests des workflows agentiques : validation des chaînes d'agents, des outils invoqués (function calling), du routage des intentions, de la gestion d'erreurs et des fallbacks.
Mise en place d'évaluations LLM-as-a-judge (rubrics, scoring automatique, calibration par échantillonnage humain).
Tests de non-régression sur prompts, modèles (changements de version) et sources documentaires (mises à jour de la base).
Tests de robustesse et de sécurité : jailbreak, prompt injection, leakage de données sensibles, biais, conformité aux exigences réglementaires bancaires.
Reporting des défauts et collaboration directe avec les équipes Data/ML/Dev pour le débogage et la correction.
Contribution à l'outillage de recette : développement de helpers internes, intégration aux pipelines CI/CD, dashboards de qualité (Streamlit, Grafana, etc.).

Communication et accompagnement

Restituer les résultats de recette de manière synthétique aux Product Owners, équipes IT et métiers.
Documenter les bonnes pratiques de recette IA générative et contribuer au socle méthodologique de l'équipe Assets IA.
Participer aux communautés QA / GenAI 4 Dev du Groupe et y partager les retours d'expérience.

Compétences techniques attendues

Expérience confirmée en recette / QA sur des produits data, IA ou applicatifs critiques (idéalement secteur bancaire/assurance).
Maîtrise solide de Python : scripting, automatisation, manipulation de données, librairies de test (pytest, unittest).
Connaissance pratique des composants RAG : parsing (Unstructured, PyMuPDF, LlamaParse), chunking (recursive, semantic, hybride), modèles d'embeddings (OpenAI, Mistral, Cohere, BGE, etc.), bases vectorielles (Pinecone, Weaviate, Qdrant, FAISS, pgvector), reranking.
Connaissance des frameworks LLM/Agents : LangChain, LlamaIndex, LangGraph, Semantic Kernel, ou équivalents propriétaires.
Frameworks d'évaluation RAG : RAGAS, TruLens, DeepEval, Promptfoo, Giskard, Arize Phoenix, ou benchmarks internes.
Pratique de l'orchestration de workflows : génération et test de workflows agentiques (LangGraph, n8n, Make, ou framework maison).
Manipulation d'API LLM : OpenAI, Azure OpenAI, Anthropic, Mistral, Bedrock — gestion du rate limiting, retry, instrumentation.
Git, CI/CD, Docker : intégration des tests aux pipelines, capacité à industrialiser une chaîne de recette.
Notions de MLOps / LLMOps : versioning de prompts, tracking d'expérimentations (MLflow, Weights & Biases, Langfuse), monitoring de production.
Capacité à réaliser des expérimentations techniques (POC de scripts d'évaluation, prototypes de pipelines de recette) en autonomie.

Soft skills

Rigueur et esprit d'analyse poussés — la qualité d'un système RAG se joue dans le détail.
Pragmatisme et capacité à arbitrer entre couverture exhaustive et délais industriels.
Excellentes capacités rédactionnelles (rapports de recette, documentation technique) et de présentation orale.
Curiosité technologique : veille active sur les méthodes d'évaluation des LLM et systèmes agentiques.
Coordination, sens du service et du dialogue avec des interlocuteurs variés (Data Scientists, Devs, Architects, PO, métiers).
Capacité d'initiative, force de proposition sur l'amélioration des process de recette.
Anglais courant impératif pour ce poste (documentation technique, échanges internationaux).

Profil recherché

Expérience confirmée en recette / QA sur des produits data, IA ou applicatifs critiques (idéalement secteur bancaire/assurance)
Maîtrise solide de Python : scripting, automatisation, manipulation de données, librairies de test (pytest, unittest)
Connaissance pratique des composants RAG : parsing (Unstructured, PyMuPDF, LlamaParse), chunking (recursive, semantic, hybride), modèles d'embeddings (OpenAI, Mistral, Cohere, BGE, etc.), bases vectorielles (Pinecone, Weaviate, Qdrant, FAISS, pgvector), reranking
Connaissance des frameworks LLM/Agents : LangChain, LlamaIndex, LangGraph, Semantic Kernel, ou équivalents propriétaires
Connaissance des frameworks d'évaluation RAG : RAGAS, TruLens, DeepEval, Promptfoo, Giskard, Arize Phoenix, ou benchmarks internes
Pratique de l'orchestration de workflows : génération et test de workflows agentiques (LangGraph, n8n, Make, ou framework maison)
Manipulation d'API LLM : OpenAI, Azure OpenAI, Anthropic, Mistral, Bedrock — gestion du rate limiting, retry, instrumentation
Git, CI/CD, Docker : intégration des tests aux pipelines, capacité à industrialiser une chaîne de recette
Notions de MLOps / LLMOps : versioning de prompts, tracking d'expérimentations (MLflow, Weights & Biases, Langfuse), monitoring de production
Capacité à réaliser des expérimentations techniques (POC de scripts d'évaluation, prototypes de pipelines de recette) en autonomie
Rigueur et esprit d'analyse poussés
Pragmatisme et capacité à arbitrer entre couverture exhaustive et délais industriels
Excellentes capacités rédactionnelles et de présentation orale
Curiosité technologique : veille active sur les méthodes d'évaluation des LLM et systèmes agentiques
Coordination, sens du service et du dialogue avec des interlocuteurs variés (Data Scientists, Devs, Architects, PO, métiers)
Capacité d'initiative, force de proposition sur l'amélioration des process de recette
Anglais courant impératif pour ce poste (documentation technique, échanges internationaux)

D'autres offres idéales pour vous !

Ces entreprises cherchent également d'excellents profils

iSupplier

Test Management / Quality Assurance / Test Automation

Freelance

Dans 2 à 4 semaines

Bruxelles, Belgique

Hybride

Expertises

Test & QAIngénieur testIngénieur QA

il y a 3 mois

Opportunité exclusive

NATAN Consulting

QA Engineer

CDI

Dans 4 à 8 semaines

Paris, France

Hybride

Expertises

JavaTest & QASeleniumPlaywrightIngénieur QAcucumber

il y a 7 jours

Opportunité exclusive

Cherrypick

QA Automation & API Tester

480€

Freelance

Urgent

Paris, France

Hybride

Top Recruteur

Expertises

PostmangherkinK6karatecucumber

il y a 2 jours

Opportunité exclusive

Réseau professionnel conçu pour les talents

Freelancers

Créer un profil

Rejoindre un collectif

Solutions et outils

Entreprises

Trouver des profils

Publier une offre

Études de cas

À propos

Contact

Politique de confidentialité

Conditions générales

Testeur QA IA Gen

Testeur QA IA Gen

Salutech

Testeur QA IA Gen

Partagez cette opportunité

Missions

Compétences techniques attendues

Soft skills

D'autres offres .css-1d9pfk5{color:var(--chakra-colors-primary-600);}idéales pour vous !

Test Management / Quality Assurance / Test Automation

QA Engineer

QA Automation & API Tester

Freelancers

Entreprises

À propos

D'autres offres idéales pour vous !