Apple a récemment mis en avant plusieurs modifications en matière de confidentialité qui seront intégrées à son navigateur Safari, tout en critiquant son concurrent Google pour son système Topics, qui diffuse des publicités en ligne en fonction de l’historique de navigation sur Chrome.
Le fabricant de l’iPhone, en se basant sur une étude de Yohan Beugin et Patrick McDaniel de l’Université du Wisconsin-Madison, affirme que Topics facilite l’empreinte numérique, permettant ainsi aux annonceurs d’identifier des utilisateurs web auparavant inconnus, une préoccupation persistante pour de nombreux internautes. Il existe des craintes que les utilisateurs puissent être suivis sur le web grâce à l’API Topics dans Chrome, ou que ceux qui tentent de dissimuler leur identité aux annonceurs puissent être redécouverts grâce à cette technologie.
Selon les experts, la tentative de Google de contrer cette empreinte numérique en ajoutant un peu de hasard n’est pas suffisante.
Les auteurs de l’étude utilisent des données de navigation réelles à grande échelle (données fournies volontairement) pour démontrer comment le bruit de cinq pour cent, censé offrir une dénégation plausible aux utilisateurs, peut être contourné, et comment l’API Topics peut être exploitée pour identifier et réidentifier les utilisateurs, selon le rapport de l’équipe WebKit d’Apple.
Cependant, le risque d’empreinte numérique semble largement exagéré, en raison d’une dépendance à un code de randomisation inapproprié dans cette étude. Topics fait partie des API du Privacy Sandbox de Google, conçu pour offrir une méthode respectueuse de la vie privée permettant aux annonceurs de cibler les utilisateurs en ligne avec des publicités adaptées à leurs intérêts, déduits de leur activité de navigation.
Lorsque vous utilisez Chrome pour visiter un site qui utilise Topics, le site peut interroger directement votre navigateur sur vos centres d’intérêt en fonction des pages que vous avez précédemment consultées, afin de sélectionner les publicités les plus pertinentes. Par exemple, si vous avez consulté des articles sur le fromage et le vin, vous verrez des annonces en rapport avec ces sujets, car Chrome informera les sites que vous avez exploré ce type de contenu.
Topics a été conçu pour remplacer les cookies tiers, un mécanisme de suivi et de ciblage hérité que Google avait prévu de supprimer de Chrome en raison de son potentiel à compromettre la vie privée. Au lieu de permettre l’utilisation de cookies tiers pour suivre les utilisateurs lors de leur navigation, construisant ainsi un profil de leurs intérêts, Chrome proposerait plutôt Topics comme un moyen de communiquer les activités de l’utilisateur.
Malheureusement, la résistance des annonceurs et des régulateurs a poussé Google à reconsidérer sa décision de supprimer le support des cookies tiers. Ainsi, les API du Privacy Sandbox coexisteront désormais avec les technologies de ciblage basées sur les cookies traditionnels. Google a récemment publié des tests de revenus publicitaires suggérant une autre raison de maintenir les cookies tiers, à savoir des revenus publicitaires programmatiques plus élevés, bien que lorsque les cookies tiers ne soient pas une option, Topics soit au moins mieux que rien.
Le support de Topics a été introduit dans Chrome l’année dernière. Cependant, l’année précédente, même des développeurs de l’industrie publicitaire, comme Alexandre Gilotte, scientifique des données senior et ingénieur logiciel pour la plateforme publicitaire Criteo, avaient exprimé des préoccupations concernant la menace d’empreinte numérique posée par Topics. En particulier, il est possible de reconnaître et de cibler des internautes individuels en fonction de leurs données Topics au fur et à mesure qu’ils naviguent d’un site à l’autre.
Ce n’est pas la première fois que le risque de confidentialité lié à l’empreinte numérique est soulevé en ce qui concerne la technologie publicitaire de Google. Des développeurs affiliés à Apple avaient exprimé leur opposition à Topics en 2022. De plus, l’API précédente basée sur les intérêts, connue sous le nom de Federated Learning of Cohorts (FLoC), a été abandonnée en partie en raison de préoccupations concernant l’empreinte numérique.
Comme le souligne Apple dans son article, de nombreuses API web peuvent être utilisées pour l’empreinte numérique des navigateurs, et réduire le potentiel d’abus est un effort continu. « Il est essentiel pour l’avenir de la vie privée sur le web de ne pas aggraver le problème de l’empreinte numérique avec de nouvelles API identifiables », explique le post d’Apple. « Il existe des cas où le compromis nous indique qu’une expérience web riche ou une accessibilité améliorée justifie un certain niveau d’identifiabilité. Mais en général, notre position est que nous devrions faire progresser le web sans augmenter l’identifiabilité. »
L’objection d’Apple à Topics est justifiée, bien que le risque de confidentialité posé par l’API semble être moins important que ce qui était initialement supposé. Suite à la publication, il y a quatre mois, du code d’analyse de Topics issu de l’étude de Beugin et McDaniel, l’ingénieur de Google, Josh Karlin, a ouvert un problème sur GitHub la semaine dernière, remettant en question la méthodologie de recherche.
« J’ai jeté un coup d’œil rapide à votre code après avoir vu des résultats plutôt surprenants dans l’article connexe, et il est important de souligner un problème que j’ai rencontré, car il a un impact significatif sur la simulation (et donc sur les résultats de l’article) », a écrit Karlin. « Vous utilisez un pool de travailleurs pour créer les sujets pour chaque utilisateur sur les sites A et B, mais vous ne réinitialisez pas le générateur de nombres aléatoires sur chaque travailleur (qui est dérivé du processus original). Le résultat est que chaque travailleur crée le même flux de nombres aléatoires ! »
Corriger ce bug, a expliqué Karlin, réduit le taux de réidentification d’environ 57 % à environ 3 %. Beugin a reconnu cela dans une réponse et a confirmé la correction suggérée, montrant un risque d’empreinte numérique beaucoup réduit lorsque la simulation révisée est exécutée. « Bien que les résultats que nous obtenons maintenant aient changé quantitativement ; 2,3 %, 2,9 % et 4,1 % de ces utilisateurs sont réidentifiés de manière unique après une, deux et trois observations de leurs sujets, respectivement, nos conclusions ne changent pas qualitativement : de vrais utilisateurs peuvent être identifiés par l’API Topics et la fuite d’informations s’aggrave avec le temps à mesure que plus d’utilisateurs sont réidentifiés de manière unique », a écrit Beugin.
Quatre pour cent des environ 3,5 milliards d’utilisateurs estimés de Chrome représentent encore 140 millions de personnes, ce qui est considérable, mais ce n’est pas deux milliards comme on le craignait initialement.