J’ai écrit à plusieurs reprises sur la nécessité d’une législation sur l’IA et sur le fait que le paysage de l’IA ressemble parfois au Far West. Le projet de loi C-27 du Canada est l’une des réponses du gouvernement que j’attendais.
Dans cet article, j’explique ce qu’est le projet de loi C-27, comment votre entreprise en sera touchée, et mon point de vue sur son impact sur le domaine de l’intelligence artificielle.
Qu’est-ce que C-27?
C-27 est un projet de loi qui promulgue la Loi sur la protection des renseignements personnels des consommateurs, la Loi sur le Tribunal de la protection des renseignements personnels et des données et la Loi sur l’intelligence artificielle et les données, et apporte des modifications corrélatives et connexes à d’autres lois.
Wow, quel nom interminable ! Essentiellement, le projet de loi C-27, également appelé « Loi de mise en œuvre de la Charte numérique », est une proposition de loi canadienne qui a été publiée en juin 2022 dans le but de protéger les données personnelles des individus. Le C-27 pourrait être considéré comme l’équivalent du GDPR (General Data Protection Regulation) européen « modernisé », avec une portée plus large, étant donné qu’il couvre la fiabilité des systèmes d’IA et le droit à la vie privée.
Cette loi est exhaustive et s’applique aux renseignements personnels que les organisations recueillent, utilisent ou divulguent dans le cadre d’activités commerciales, ou aux renseignements personnels concernant un employé ou un candidat à un emploi auprès de l’organisation et que celle-ci recueille, utilise ou divulgue dans le cadre de l’exploitation d’une entreprise fédérale.
Ce que signifie C-27 en bon français
Essentiellement, cette loi garantit que les entreprises prennent au sérieux la confidentialité des informations de leurs clients et employés qu’elles collectent, utilisent ou divulguent.
Quelles sont les principales différences entre le GDPR et la loi C-27 ?
Bien qu’elle utilise des clauses et des termes différents, la loi C-27 couvre fondamentalement les mêmes droits que le GDPR (droits d’accès, de refus du marketing direct, de portabilité des données ou d’effacement). Toutefois, le champ d’application de C-27 est plus large, car elle couvre explicitement les données des employés.
C-27 couvre aussi explicitement les applications d’intelligence artificielle puisqu’elles utilisent et génèrent des données. Plus précisément, cette loi exigera que :
- Les consommateurs ou les employés impactés par une application d’IA puissent demander des explications claires et spécifiques liées à la prédiction du système.
- Les applications d’IA à fort impact effectuent une évaluation des biais négatifs potentiels et des discriminations injustifiées qui peuvent traiter négativement des populations ou des individus spécifiques.
- Les applications d’IA à fort impact documentent les risques associés aux biais négatifs ou aux résultats néfastes de l’application, identifient les stratégies d’atténuation et démontrent la surveillance de ces risques.
Pourquoi s’en préoccuper ?
Premièrement, il s’agit d’un document législatif nécessaire pour garantir la sécurité des données des résidents canadiens. Par exemple, six mois seulement après la lente et pénible mise en œuvre du GDPR en Europe, 44% des répondants à un sondage Deloitte estiment que les organisations se soucient davantage de la vie privée de leurs clients maintenant que le GDPR est en vigueur. C’est puissant.
Cependant, cela signifie qu’une quantité considérable de travail doit être entreprise pour se conformer à la C-27. Près de la moitié de toutes les organisations européennes ont réalisé un investissement important dans leurs capacités de conformité au GDPR, et 70% des organisations ont constaté une augmentation du personnel qui se concentre partiellement ou entièrement sur la conformité au GDPR. Cependant, 45 % de ces organisations ne sont toujours pas en conformité avec le GDPR. Selon le « GDPR enforcement tracker », depuis juillet 2018, 1317 amendes ont été émises.
Le projet de loi C-27 va-t-il générer autant de chaos pour les entreprises canadiennes ? Probablement pas. Les organisations canadiennes ont déjà commencé à s’adapter à cette nouvelle ère de la confidentialité des données. Le GDPR n’est plus nouveau ; il a été annoncé en 2016 et est entré en vigueur en mai 2018. Nous avons beaucoup appris depuis lors. Par exemple, 85 % des organisations canadiennes ont déjà nommé un délégué à la protection des données (CDPO), et la plupart des outils tiers ont adapté leurs produits et services pour respecter la confidentialité des données.
En d’autres termes :
- Le C-27 va être appliqué. C’est certain.
- C’est sérieux. En Europe, environ 20 % des personnes ont déjà utilisé leurs droits dans le cadre du GDPR.
- Plus vous serez proactifs, plus votre mise en œuvre sera simple et sans heurts.
- Ce n’est pas la fin du monde. Vous pouvez vous mettre en conformité sans dépenser des millions de dollars.
Ceci étant dit, vous devez commencer à préparer votre organisation à la mise en œuvre de la loi C-27.
Voici quatre mesures que vous pouvez prendre dès maintenant pour vous préparer à C-27.
1. Maîtrisez vos processus de collecte et de gestion des données.
Maintenez une bonne hygiène des données afin d’être en mesure de mieux contrôler les données personnelles dans vos différents outils, systèmes et bases de données.
2. Commencez à adopter les techniques de dépersonnalisation des données afin de minimiser l’empreinte des informations personnelles dans votre organisation.
Un excellent moyen de limiter la quantité de données personnelles entrant dans vos bases de données est de limiter leur utilisation. Cela peut se faire en éliminant ou en réduisant le nombre de bases de données, de tableaux et de champs contenant des données personnelles, ce qui réduira considérablement la complexité de la mise en conformité avec la norme C-27. Voici quelques techniques de désidentification :
- Désidentifier : modifier des informations personnelles pour réduire les chances qu’une personne puisse être directement identifiée à partir de celles-ci.
Les méthodes de hachage sont un exemple de désidentification, car les utilisateurs côté affaires ne peuvent pas identifier les personnes qui utilisent les données. Néanmoins, les équipes TI et de sécurité peuvent convertir les hachages en données identifiables si nécessaire. Les techniques de désidentification sont autorisées si des processus et des politiques appropriés sont en place pour les protéger.
Dans les systèmes d’IA, les techniques de désidentification permettent de faire des prédictions. Par exemple, sans connaître le code postal exact, les individus du code postal 12345 auront des caractéristiques similaires. Toutefois, leur pouvoir prédictif est limité par rapport aux données réelles. Par exemple, il est impossible de calculer la distance entre les codes postaux s’ils sont hachés. - Anonymiser : modifier les informations personnelles de manière irréversible et permanente, conformément aux meilleures pratiques généralement acceptées, afin qu’aucun individu ne puisse être identifié à partir de ces informations, que ce soit directement ou indirectement, par quelque moyen que ce soit.
Il s’agit d’une méthode rigoureuse de protection de la vie privée qui ne devrait pas être la méthode par défaut dans une stratégie de science des données. Par défaut, les organisations devraient dépersonnaliser les données autant qu’elles le peuvent et n’utiliser l’anonymisation que lorsqu’il n’y a pas d’autre choix. Par exemple, les textes libres et les transcriptions d’appels peuvent contenir des informations très privées et identifiables qui sont assez complexes à désidentifier. Dans ces cas, l’anonymisation est nécessaire. - Générer des données synthétiques : créer des données complètement synthétiques et réalistes à partir de données existantes afin qu’il soit possible de développer des applications d’analyse et d’IA sans risquer des problèmes de confidentialité.
Aujourd’hui, de nombreux outils et algorithmes permettent aux organisations de générer des données synthétiques réalistes sans mettre en péril les données personnelles réelles. Cette technique permet aux organisations de construire des applications d’IA avec n’importe quel type de données, identifiables ou non, sur des données tabulaires, textuelles ou même des images.
Accenture rapporte que même les IRM cérébrales seront bientôt générées synthétiquement par certaines organisations, réduisant ainsi les failles de sécurité potentielles, et permettant des projets plus transformateurs étant donné que les données sont moins restrictives. La génération de données synthétiques est essentielle pour ce cas d’utilisation car la structure du cerveau est unique et une IRM peut être utilisée pour identifier un individu. Par conséquent, dans le cadre des politiques habituelles de protection de la vie privée, l’utilisation de ces données identifiables peut être risquée et serait généralement interdite ou découragée par les organisations. Les données synthétiques ouvrent la porte à des possibilités de générer de la valeur plus facilement tout en atténuant les risques liés à la vie privée.
Vous devrez renforcer vos mesures de sécurité pour démontrer que la sécurité relative à vos ressources matérielles, organisations et techniques est sûre en ce qui concerne la confidentialité des données. Une bonne première étape consiste à documenter une PSI (politique de sécurité de l’information). Ensuite, vous pourriez découvrir des irrégularités que vous devrez gérer. Voici un lien vers des modèles pratiques du SANS.
En conclusion, il est essentiel de choisir la bonne stratégie pour dépersonnaliser vos données. Veillez à ne pas être trop restrictif, car la suppression des informations personnelles peut limiter la valeur que vous pouvez tirer des applications d’analyse et d’IA. Voici une ressource utile d’EDUCAUSE pour vous guider dans cet exercice.
3. L’explicabilité devient une nécessité lors de la construction de tout système d’IA.
Non seulement les individus auront le droit de comprendre les raisons qui sous-tendent les prédictions, mais c’est également un outil utile pour valider la qualité de votre système d’IA.
Les exigences d’explicabilité empêchent-elles les organisations d’utiliser des algorithmes d’IA et d’apprentissage automatique plus sophistiqués ? Non. En fait, au cours de la dernière décennie, la communauté universitaire a collaboré à la création d’outils et de techniques permettant de générer des explications pour des algorithmes potentiellement très complexes.
Aujourd’hui, le défi ne vient pas de l’explicabilité elle-même mais de l’explication en termes simples des raisons qui sous-tendent la prédiction. Une bonne expérience utilisateur sera nécessaire pour rendre les explications significatives.
4. Les questions éthiques et la gestion des risques liés aux préjugés négatifs sont d’autres questions que les organisations doivent aborder avec le C-27.
Plus concrètement, les organisations devront adopter une approche de gestion des risques, qui consiste à dresser la liste des risques potentiels, à estimer les probabilités et les impacts, puis à établir des plans d’atténuation. Il s’agit d’un mécanisme simple mais efficace pour gérer la plupart des risques dans un projet d’IA.
Pour vous aider à démarrer, certains acteurs du secteur ont créé des ressources très utiles qui vous permettent de réaliser une auto-évaluation. Voici deux ressources utiles pour identifier et traiter les risques liés à l’éthique et aux préjugés négatifs :
- Voici une excellente ressource qui énumère et décrit les risques les plus pertinents pour un système d’IA. Ce travail vise à y contribuer en identifiant les sources de risque pertinentes pour les systèmes d’IA. À cette fin, les différences entre les systèmes d’IA, notamment ceux basés sur des méthodes modernes d’apprentissage automatique, et les logiciels classiques ont été analysées, et les domaines de recherche actuels de l’IA de confiance ont été évalués.
Une taxonomie pourrait alors être créée pour donner un aperçu des diverses sources de risque spécifique à l’IA. Ces nouvelles sources de risque devraient être prises en compte dans l’évaluation globale des risques d’un système basé sur des technologies d’IA, examinées quant à leur criticité et gérées en conséquence à un stade précoce afin d’éviter une défaillance ultérieure du système. - L’OBVIA s’est associé à Forum IA Québec pour créer une excellente grille de réflexivité sur les enjeux éthiques des systèmes d’intelligence artificielle. Présentée sous la forme d’un questionnaire à réponses ouvertes, cette grille a été conçue pour aider les membres des équipes qui conçoivent, mettent en œuvre et gèrent les systèmes d’IA à réfléchir aux questions éthiques soulevées par le développement et l’utilisation de ces nouvelles technologies.
Cette grille s’inscrit dans une perspective de recherche participative et vise à développer des outils éthiques utiles aux praticiens. Elle est destinée à être en constante évolution à la lumière des besoins et des expériences des acteurs susceptibles de l’utiliser.
Je pense que des outils d’auto-évaluation comme celui-ci sont la voie à suivre car ils assurent une certaine rigueur dans l’évaluation tout en rendant le processus moins pénible pour les utilisateurs finaux.
C-27 s’accompagnera d’un ensemble d’exigences complet et strictes
En conclusion, le C-27 s’accompagnera d’un ensemble d’exigences complet et strict. Bien que ce soit pour le bien de tous, les organisations devront faire de gros efforts pour se préparer. Il existe des moyens intelligents d’être en conformité tout en ne mettant pas en péril votre processus d’innovation ; purger toutes vos données ou ne pas faire d’IA ou d’applications analytiques n’est pas une option valable. L’aspect positif de cette situation est que les solutions pour se conformer à C-27 sont des opportunités pour générer de la valeur supplémentaire.
En contrôlant votre processus de collecte et de gestion des données, vous gagnerez en maturité, ce qui devrait avoir un impact positif sur la collecte et la qualité des données.
En utilisant des techniques de dé-identification, des techniques d’anonymisation uniquement lorsque c’est nécessaire, et en générant des données synthétiques, vous réduirez considérablement les risques de sécurité tout en poursuivant des applications d’IA qui semblaient trop risquées auparavant. Cela facilitera la gestion du changement. Les données synthétiques peuvent également être utilisées pour produire des ensembles de données plus importants, ce qui aidera à construire des applications d’IA performantes.
En investissant dans l’explicabilité de vos applications d’IA, vous ne vous conformerez pas seulement à la norme C-27, mais vous réduirez aussi considérablement les efforts de validation et de gestion du changement, car les utilisateurs finaux et les parties prenantes pourront être rassurés lorsque les explications correspondront à leur réalité.
Enfin, en évaluant et en agissant sur les risques de biais éthiques et négatifs, vous vous assurez que votre organisation ne discrimine pas les consommateurs ou les employés, ce qui peut être catastrophique d’un point de vue juridique, réputationnel et sociétal.
C-27 est bon pour la population et aidera les organisations à faire un meilleur usage de leurs données.
Olivier est cofondateur et VP science de la décision chez Moov AI. Il est éditeur de la norme ISO internationale qui définit la qualité des systèmes d’intelligence artificielle où il mène une équipe de 50 professionnels de l’IA de partout dans le monde. Ses connaissances de pointe en IA et en apprentissage machine l’ont amené diriger la mise en oeuvre d’une culture des données dans différentes industries.