La tentation du scraping massif et ses risques pour une stratégie ABM
La promesse du web scraping est séduisante pour toute équipe qui pratique l’Account Based Marketing : automatiser la collecte d’informations sur les comptes cibles pour alimenter le ciblage, la personnalisation et le scoring sans passer des heures à naviguer manuellement sur les sites web, les réseaux sociaux et les registres d’entreprises. Le problème est que la frontière entre collecte intelligente et collecte illégale est souvent mal comprise, et franchir cette frontière expose l’entreprise à des sanctions financières et à des dommages réputationnels qui peuvent anéantir les bénéfices de toute la stratégie ABM.
Chez Propuls’Lead, nous accompagnons nos clients dans la mise en place de méthodes de collecte d’intelligence commerciale qui respectent le cadre légal tout en fournissant les données nécessaires à un ciblage ABM performant. La méthodologie PROPULSE intègre la conformité juridique dès la conception des processus de collecte, parce que les données obtenues illégalement sont non seulement inutilisables en cas de contrôle, mais elles exposent aussi l’entreprise à des amendes qui peuvent atteindre quatre pour cent du chiffre d’affaires annuel mondial en vertu du RGPD. Le web scraping n’est pas interdit en soi, mais son utilisation est encadrée par un ensemble de règles que toute PME B2B doit comprendre avant de lancer ses robots de collecte.
Comme nous l’avons détaillé dans notre article sur comment enrichir ses données de comptes sans outils coûteux, les méthodes manuelles et semi-automatisées offrent souvent un meilleur rapport qualité-conformité que les solutions de scraping intégral, mais il existe un juste milieu que nous allons explorer dans cet article.
Ce que la loi autorise et ce qu’elle interdit en matière de collecte de données B2B
Le cadre juridique du web scraping en Europe repose sur trois piliers qui se superposent et qui doivent tous être respectés simultanément. Le premier pilier est le RGPD, qui protège les données personnelles des individus, y compris les données professionnelles comme les noms, les adresses email et les numéros de téléphone des décideurs de vos comptes cibles. Le deuxième pilier est le droit des bases de données, issu de la directive européenne 96/9/CE, qui protège les investissements réalisés par les producteurs de bases de données et interdit l’extraction substantielle de leur contenu sans autorisation. Le troisième pilier est le droit des contrats, matérialisé par les conditions générales d’utilisation des sites web, qui peuvent restreindre ou interdire le scraping même quand les données elles-mêmes ne sont pas protégées par le RGPD.
En pratique, le scraping de données publiquement accessibles sur les sites web des entreprises, comme les pages « À propos », les communiqués de presse ou les offres d’emploi, est généralement considéré comme licite à condition de respecter les conditions d’utilisation du site et de ne pas extraire une partie substantielle d’une base de données protégée. En revanche, le scraping de profils LinkedIn, de bases de données d’emails ou de registres payants est problématique parce qu’il enfreint les conditions d’utilisation de ces plateformes et peut constituer une extraction illicite de base de données. La jurisprudence européenne et française confirme que les données rendues publiques par les individus sur les réseaux sociaux ne sont pas pour autant librement exploitables à des fins commerciales sans base légale valide au sens du RGPD.
La distinction entre données d’entreprise et données personnelles est fondamentale pour le scraping ABM. Les données firmographiques pures, comme le chiffre d’affaires, l’effectif, le secteur d’activité ou l’adresse du siège social, ne sont pas des données personnelles et peuvent être collectées plus librement. Les données qui permettent d’identifier un individu, comme le nom d’un dirigeant associé à son entreprise et à son poste, sont des données personnelles soumises au RGPD même quand elles sont publiquement accessibles. Cette nuance conditionne toute la stratégie de scraping éthique que Propuls’Lead met en place avec ses clients, comme nous l’avons illustré dans notre article sur le scoring de comptes ABM où les données firmographiques publiques constituent la base la plus solide du scoring.
Les techniques de scraping conformes pour alimenter votre ciblage ABM
Le scraping éthique pour l’ABM s’organise autour de trois catégories de sources qui présentent des niveaux de risque juridique différents et qui nécessitent des approches adaptées. La première catégorie regroupe les sources officielles et les données ouvertes, comme les registres d’entreprises Pappers.fr et Infogreffe, les publications au BODACC, les appels d’offres publics sur le BOAMP et les données de l’INSEE. Ces sources sont conçues pour être consultées et leurs données sont par nature destinées à la diffusion publique. Le scraping de ces sources est le moins risqué, à condition de respecter les limites de requêtes imposées par leurs serveurs et de ne pas contourner les mécanismes d’accès payant quand ils existent.
La deuxième catégorie couvre les sites web des entreprises cibles elles-mêmes. Les pages publiques des sites corporate, les blogs, les pages carrières et les communiqués de presse sont des contenus que l’entreprise a choisi de rendre accessibles et leur consultation automatisée est généralement acceptée. La bonne pratique consiste à respecter le fichier robots.txt de chaque site, qui indique les sections que le propriétaire ne souhaite pas voir indexées ou scrapées par des robots. Ignorer un robots.txt n’est pas illégal en soi dans la plupart des juridictions européennes, mais cela démontre un manque de bonne foi qui peut jouer en votre défaveur en cas de litige. Propuls’Lead configure ses outils de collecte pour respecter systématiquement les directives robots.txt des sites cibles, parce que le respect de ces règles est cohérent avec la philosophie ABM qui valorise la relation de confiance avec les comptes cibles.
La troisième catégorie concerne les plateformes tierces comme LinkedIn, Glassdoor ou les annuaires professionnels. Ces plateformes interdisent généralement le scraping dans leurs conditions d’utilisation, et les contourner expose l’entreprise à des poursuites judiciaires et à la fermeture de ses comptes. L’alternative conforme consiste à utiliser les API officielles proposées par ces plateformes quand elles existent, ou à collecter les informations manuellement dans les limites d’usage prévues par la plateforme. Nous avons approfondi cette approche dans notre article sur comment utiliser LinkedIn Sales Navigator pour construire sa liste ABM, où l’utilisation conforme de LinkedIn est un pilier de la stratégie de collecte.
Mettre en place un processus de collecte éthique et documenté
La conformité du scraping ne se limite pas au choix des bonnes sources. Elle exige un processus documenté qui démontre la bonne foi de l’entreprise et sa volonté de respecter les droits des personnes concernées. Ce processus commence par la rédaction d’un registre de traitement qui décrit les données collectées, les sources utilisées, la finalité commerciale du traitement, la base légale retenue et la durée de conservation prévue.
Pour les données personnelles collectées par scraping, la base légale la plus couramment invoquée en B2B est l’intérêt légitime, qui permet de traiter des données sans le consentement de la personne à condition que l’intérêt commercial de l’entreprise ne porte pas atteinte de manière disproportionnée aux droits et libertés de la personne concernée. L’intérêt légitime est une base légale valide pour la prospection B2B selon les lignes directrices de la CNIL, mais elle impose une obligation de transparence et de droit d’opposition que beaucoup d’entreprises négligent. Concrètement, chaque personne dont vous collectez les données professionnelles par scraping doit être informée de cette collecte dans un délai raisonnable et doit pouvoir exercer son droit d’opposition de manière simple et effective.
Propuls’Lead recommande de compléter chaque campagne de scraping ABM par un audit de conformité qui vérifie que les données collectées sont proportionnées à l’objectif poursuivi, que les sources respectées sont documentées, et que les mécanismes de droit d’accès et d’opposition sont en place. Cette rigueur juridique n’est pas un frein à l’efficacité commerciale, elle en est la condition, parce qu’une base de données conforme est une base de données pérenne qui peut être exploitée sereinement sur le long terme, tandis qu’une base de données construite dans l’urgence et sans précautions juridiques est une bombe à retardement réglementaire.
La durée de conservation des données collectées par scraping doit également être définie et respectée. Les données firmographiques peuvent être conservées tant qu’elles restent exactes, mais les données personnelles des décideurs doivent être actualisées régulièrement et supprimées quand elles ne sont plus nécessaires à la finalité initiale de prospection ABM. Comme nous l’avons souligné dans notre article sur les signaux d’intention d’achat, la qualité et la licéité des données sont les fondements de toute stratégie ABM durable, et cette qualité passe par une hygiène de données rigoureuse qui inclut la purge des informations obsolètes autant que la collecte de nouvelles informations pertinentes.
