Vous êtes ici  :   Accueil > Intelligence artificielle
Connectez-vous

Accueil

Continuité pédagogique Région académique TNE Réseau académique Collectivités territoriales Ressources et usages Intelligence artificielle Pédagogies innovantes Hybridation Offres de services Publications Usages responsables

Intelligence artificielle

Publié le Feb 10, 2024

Écrire à l'auteur

Le  Saturday, February 10, 2024

Ia AnSu - Score DNB

Un outil pour évaluer les LLM dans le cadre de la classe

  • scoreDNB

    « ScoreDNB » est conçu comme un indicateur de performance pour évaluer les modèles de langage (ou IA génératives de textes, LLM) dans le cadre de l’Éducation Nationale. Il vise à mesurer leur aptitude à fournir des réponses pertinentes et précises dans différents scénarios éducatifs.

     

    Une première présentation du concept scoreDNB

    Introduction à « scoreDNB »

    Le DNB (Diplôme National du Brevet) constitue une étape clé dans le parcours scolaire en France, évaluant les connaissances et compétences des élèves en fin de collège. Il représente un repère important pour les élèves et leurs familles.
    Dans le projet AnSu, l’optimisation du modèle pour obtenir un SML est un objectif. Il est crucial de s’assurer qu’une fine-tuning ou quantization excessive n’altère pas les capacités du modèle.

     

    Méthodologie

    Principe général

    Trois rôles sont identifiés et évalués : examinateur, candidat et correcteur.
    L’évaluation de l’IA repose sur un ensemble de questions établies selon des critères prédéfinis. Chaque question est associée à une réponse type et des critères d’évaluation.
    Il s’agit d’un jeu de données (dataset) de référence pour notre indicateur scoreDNB.
    L’IA évaluée jouera différents rôles. L’indicateur sera basé sur l’ensemble de ces évaluations.
    L’IA sera évaluée soit par des humains (enseignants ou élèves), soit par d’autres IA (un modèle de langage similaire ou différent).

    Dataset

    Le jeu de données ou dataset pour l’évaluation inclut des questions couvrant diverses disciplines et niveaux de difficulté, en lien direct avec le DNB. Dans le cadre du projet AnSu, ce dataset sert à soutenir l’amélioration du RAG ou le fine-tuning du modèle de language.

     

    Analyses et évaluations

    La problématique de l’analyse est connue et identifié par de nombreux acteurs de l’IA et des LLMs et représente un défi majeur.
     « L’évaluation des LLM (…) représente un défi majeur, l’évaluation humaine étant coûteuse et la justesse des réponses techniques parfois difficile à apprécier pour les non-experts. »
    Extrait traduit de arXiv:2401.08406v3 [cs.CL] 16 Jan 2024

     

    Nous sommes confrontés à une approche globale et qualitative de la réponse, comme avec les élèves, nécessitant des compromis, par exemple dans le choix des métriques de notre indicateur.

    Il est égaleFment important de considérer, pour chaque modèle testé, le temps de construction de l’indicateur, son coût humain ou financier, surtout si on utilise d’autres modèles de langage pour l’évaluation.

    Ces scénarios d’évaluation peuvent aussi servir à évaluer des aspects qualitatifs comme la concision et le style de la réponse. Des retours sous forme d’évaluations de 1 à 5 en étoiles ou binaires peuvent être pertinents, mais ils ne suffisent pas toujours à évaluer la pertinence de la réponse.

     

    Perspectives

    Il est crucial de noter que le score DNB est un processus progressif et de plus en plus complexe. La première étape est d’évaluer une IA dans le cadre du DNB, suivie de l’automatisation de cette tâche pour comparer les améliorations du modèle. La dernière étape vise à évaluer la capacité de l’IA à aider les élèves. Score DNB est en fait une démarche qualité pour les outils éducatifs.

     

    Conclusion

    ScoreDNB est un outil essentiel pour l’évaluation des modèles de langage dans l’Éducation nationale, offrant des perspectives d’amélioration continue des outils éducatifs basés sur l’IA, qu’ils soient proposés par des prestataires privés ou de l’éducation nationale.

     

    Plus de détails sur cet outil en cliquant ICI 
    Présentation AnSu en cliquant ICI

    prez 

    L’ia AnSu est une expérimentation pilotée par Alexandre Castanet et Jean-Baptiste Civet, 

    sous la direction de Ludovic Diana du Pôle Recherche et Développement de la DRANE PACA.