Mon sujet de veille
Provenance et la formation des données d’entraînement de l’IA.
La méthode utilisée
Utilisation de feedly
Grâce à Feedly, j’ai pu centraliser plusieurs sources d’information en un seul endroit. En recherchant simplement un mot‑clé, la plateforme propose automatiquement des contenus liés au sujet, ce qui permet de suivre facilement les informations les plus pertinentes.
Utilisation de Google Alertes
Grâce à Google Alertes, j’ai pu recevoir chaque jour un e‑mail contenant des informations sur l’IA appliquée à la cybersécurité. Il suffit de définir un thème, et l’outil sélectionne automatiquement les contenus qu’il juge les plus pertinents, ce qui permet de rester informé sans effort
Certains des articles que j’ai utilisés.
Des humains dans la boucle : les annotateurs de données derrière les ensembles d’entraînement
-Septembre 2025
L’IA à l’OCDE : point d’information & calendrier médiatique
-Octobre 2025
Cet avis officiel présente les publications récentes et futures de l’OCDE sur l’intelligence artificielle. Il met en avant les rapports consacrés aux mécanismes de collecte des données d’entraînement et souligne leur importance pour la gouvernance et la régulation de l’IA.
Common Crawl fait le sale travail de l’industrie de l’IA
-Novembre 2025
L’article explique que Common Crawl récupère énormément de pages web et que ces données servent ensuite à entraîner les modèles d’IA. Il montre que le web scraping est l’une des principales sources de données pour les LLM, même lorsque les contenus ne sont pas toujours destinés à être copiés.
Connaître l’origine des informations utilisées par l’intelligence artificielle
Novembre 2025
Nous manquons de données pour entraîner l’IA. L
Decembre 2025
Collecte de données par l’IA : définition et fonctionnement.
Déclaration commune – Cadres fiables de gouvernance des données pour une IA responsable
Les fiches pratiques IA – Constituer et traiter des bases de données pour entraîner l’IA
Stratégie nationale IA – Gouvernance des données et souveraineté numérique pour 2026–2030
Résumé : La provenance des données dans l’IA
L’intelligence artificielle dépend des données qu’elle utilise pour apprendre. Lorsque ces données viennent de sources peu fiables ou mal contrôlées, l’IA peut produire des erreurs, des biais ou utiliser des informations sans autorisation. On oublie aussi souvent que beaucoup de données sont annotées par des travailleurs mal payés, souvent dans des pays vulnérables.
Une bonne gestion de l’origine des données permet de créer des modèles plus justes, plus fiables et plus transparents. Cela aide à éviter les problèmes juridiques, à réduire les discriminations et à protéger les personnes qui travaillent derrière l’IA..
Recommandations simples :
- Utiliser des données fiables et bien documentées.
- Respecter la vie privée et le droit d’auteur.
- Diversifier les sources pour limiter les biais.
- Assurer de bonnes conditions de travail pour les annotateurs.
- Être transparent sur l’origine et les limites des données.
