Véroler l’avenir : les risques cachés des générateurs de code IA

Véroler l’avenir : les risques cachés des générateurs de code IA

25 juin 2025

Introduction

Dans la course au développement plus rapide, plus intelligent et à grande échelle, les générateurs de code basés sur l’IA comme GitHub Copilot, Tabnine ou Google Gemini Code Assist sont devenus des outils incontournables pour les développeurs. Alimentés par de puissants modèles de langage (LLMs), ces outils promettent des gains de productivité et des suggestions de code fluides.

Mais une face plus sombre existe : et si le code suggéré était piégé ?

La menace émergente : les attaques au moment de l’entraînement

Les LLMs sont entraînés sur d’immenses datasets extraits de dépôts publics comme GitHub, GitLab, Bitbucket, Stack Overflow, etc. Si un attaquant parvient à injecter intentionnellement des modèles malveillants dans ces données, il peut influencer les suggestions futures du modèle.

Un modèle est aussi fiable que les données qui l’ont formé. Empoisonnez les données, vous empoisonnez le modèle.

Un scénario de risque concret

  1. Un attaquant crée des centaines de dépôts publics GitHub avec des noms crédibles

Le code de ces dépôts est :

  • ✅ Fonctionnel

  • ✅ Propre et bien documenté

  • ✅ Optimisé pour le référencement sur GitHub

  • ❌ Contient une backdoor, des identifiants codés en dur ou de la crypto non sécurisée


Avec le temps, ces dépôts gagnent en visibilité ou sont intégrés dans les datasets utilisés pour l’entraînement.

Six mois plus tard, un outil de code assisté par IA comme Copilot suggère un extrait provenant de l’un de ces dépôts à un développeur travaillant sur une fonctionnalité similaire.

Le développeur accepte la suggestion.

La backdoor se retrouve en production.

Données réelles : quel est le risque ?

Harvard + Stanford (2022) :
Une étude montre que 40 % des suggestions de Copilot dans des contextes sensibles étaient vulnérables.
Exemple : dans 26 % des cas, Copilot a recommandé du code C non sécurisé (comme l’utilisation de strcpy()).

MIT + UC Berkeley (2023) :
Une étude intitulée "Prompt Injection Attacks Against Code LLMs" a démontré des taux de réussite élevés (60 - 70 %) d'injection de logique malveillante via contamination des données.

OWASP AI Security Top 10 (brouillon 2024) :
Identifie l’empoisonnement des données d'entraînement comme une menace majeure pour les chaînes de développement assistées par IA.

NCC Group (2023) :
Prédit que l’empoisonnement des modèles IA deviendra l’un des principaux vecteurs de compromission de la chaîne de développement logicielle d’ici 2025.

Pourquoi est-ce dangereux ?

  • Les développeurs, surtout les juniors, ont tendance à faire confiance au code généré.

  • Les générateurs de code expliquent rarement pourquoi un extrait est sécurisé ou non.

  • Peu de développeurs disposent d’outils de revue de code sécurisée au moment de la suggestion.

  • À long terme, les modèles apprennent et reproduisent des pratiques dangereuses comme des standards.


Nos recommandations pour les développeurs et responsables IT

Pour les développeurs :

  • Utilisez des linters et des analyseurs statiques.


  • Soumettez systématiquement le code suggéré par l’IA à une revue de sécurité interne avant validation.


Pour les responsables sécurité / IT managers :

  • Intégrez des contrôles de sécurité dans vos pipelines CI/CD (ex : analyses SAST/DAST).


  • Formez vos développeurs aux bonnes pratiques de sécurité dans un contexte de développement assisté par IA.


  • Utilisez des outils permettant la surveillance de l’usage du code généré par IA dans vos dépôts.


  • Maintenez une liste de solutions IA validées.


  • Privilégiez la transparence open source dans les datasets utilisés pour l'entraînement des LLMs.


Conclusion

Les générateurs de code IA ne sont pas dangereux par nature, mais leur utilisation aveugle l’est.

À mesure que les LLMs deviennent centraux dans les cycles de développement, l’empoisonnement des données s’impose comme un vecteur d’attaque stratégique. Les organisations doivent adopter une approche zero trust, non seulement vis-à-vis du code tiers, mais aussi de l’IA qui contribue à leur code.

Les risques cachés des générateurs de code IA

David Renoux

Directeur de Neopixl

"

Les risques cachés des générateurs de code IA

David Renoux

Directeur de Neopixl

"

Les risques cachés des générateurs de code IA

David Renoux

Directeur de Neopixl

"

Neopixl est une marque du groupe

leader de l'open source

Nos autres services au Luxembourg

Neopixl est une marque du groupe

Nos autres services au Luxembourg

  • Luxembourg

  • Bruxelles

  • Marseille

  • Wroclaw

Luxembourg.

115 A Emile Mark
L-4620 Differdange

Marseille.

Smile France

Pôle Media de la Belle de Mai
37/41 Guibal Street
13 003 Marseille
France

Bruxelles.

Smile Belgique

12 Avenue de Broqueville
B-1150 Woluwe-Saint-Pierre
Belgique

Wrocław.

Smile Pologne

Aleja Wisniowa 43 A

53-136 WROCŁAW

Poland

Durable &
accessible

1,6g/ clic

D Score on

I.T is open.

Luxembourg.

115 A Emile Mark
L-4620 Differdange

Marseille.

Smile France

Pôle Media de la Belle de Mai
37/41 Guibal Street
13 003 Marseille
France

Bruxelles.

Smile Belgique

12 Avenue de Broqueville
B-1150 Woluwe-Saint-Pierre
Belgique

Wrocław.

Smile Pologne

Aleja Wisniowa 43 A

53-136 WROCŁAW

Poland

Durable &
accessible

1,6g/ clic

D Score on

I.T is open.

Luxembourg.

115 A Emile Mark
L-4620 Differdange

Marseille.

Smile France

Pôle Media de la Belle de Mai
37/41 Guibal Street
13 003 Marseille
France

Bruxelles.

Smile Belgique

12 Avenue de Broqueville
B-1150 Woluwe-Saint-Pierre
Belgique

Wrocław.

Smile Pologne

Aleja Wisniowa 43 A

53-136 WROCŁAW

Poland

Durable &
accessible

1,6g/ clic

D Score on

I.T is open.