Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book.
Title document
Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book.
Le web scraping est un outil puissant, mais souvent mal compris et parfois utilisé de manière illégale ou non éthique. Cependant, lorsque c'est fait correctement et légalement, le web scraping peut fournir des données précieuses.
Qu'est-ce que le web scraping ? Quelles sont les implications légales ? Pouvons-nous scraper LinkedIn ? Quelles sont les bonnes pratiques ?
Lisez l'article pour tout apprendre du scraping et savoir l'utiliser de façon responsable.
Le Web scraping (de l’anglais scraping = « gratter/racler »), consiste à extraire des données d'un site internet. C'est exactement comme faire un copier-coller, sauf que le processus est automatisé pour collecter rapidement de grandes quantités de données. Cela peut inclure, par exemple, de la collecte de coordonnées de contacts (ex : numéro de téléphone, adresse mail, etc.) à des fins de prospection commerciale.
Bien que le web scraping en soi ne soit pas illégal, il y a des limites à respecter pour rester sur le droit chemin. Pour respecter les limites, c'est souvent bien simple : il suffit de les connaître.
Bien que de nombreuses données soient accessibles en ligne, toutes ne peuvent être extraites via le web scraping pour autant :
Avant de lancer un scraping, il est impératif de vérifier la nature des données (privées, confidentielles) et de respecter les éventuelles restrictions des CGU du site à scraper.
En France, le web scraping non autorisé peut être sévèrement sanctionné, car qualifié de vol de données par le code pénal. Dans le cas où des sous-traitants sont impliqués, leur conformité au RGPD doit être assurée, et les obligations en matière de traitement des données doivent être clairement définies dans les contrats.
LinkedIn, tout comme d'autres réseaux sociaux, est l'un des sites les plus scrapés au monde. Sur LinkedIn, le scraping de données utilisateur permet l'extraction de nombreuses informations utiles pour la prospection commerciale et le recrutement.
Cependant, les conditions générales d'utilisation (CGU) de LinkedIn interdisent explicitement le scraping de ses données, comme le stipule l'article 8.2 :
Vous vous engagez à ne pas (...)développer, prendre en charge ou utiliser des logiciels, des dispositifs, des scripts, des robots ou tout autre moyen ou processus (notamment des robots d’indexation, des modules d’extension de navigateur et compléments, ou toute autre technologie) visant à effectuer du web scraping des Services ou à copier par ailleurs des profils et d’autres données des Services
Malgré tout, il n'existe qu'un cas de jurisprudence. Il s'est déroulé aux États-Unis, opposant LinkedIn à la société HiQ Labs pour ses activités de scraping. Ce procès a débuté en 2017 et s'est poursuivi jusqu'en 2022 !
Lors du procès, la première victoire était pour HiQ, la juge Marsha Berzon écrivait alors
"There is little evidence that LinkedIn users who choose to make their profiles public actually maintain an expectation of privacy with respect to the information that they post publicly, and it is doubtful that they do. (...) And as to the publicly available profiles, the users quite evidently intend them to be accessed by others."
Elle a conclu que les données n'appartiennent pas à LinkedIn, mais aux utilisateurs eux-mêmes. Elle a également noté que bloquer HiQ obligerait l'entreprise à fermer, son modèle étant justement basé sur le scraping et l'analyse de données issues de LinkedIn.
Cependant, vous vous en doutez, LinkedIn n'a pas accepté cette décision et a fait appel. Donner raison au scraping dans ce procès, c'était créer un précédent qui montrerait que LinkedIn ne peut pas lutter contre le scraping de sa plateforme.
Le procès s'est finalement terminé en 2022 en faveur d'HiQ.
"Giving companies like LinkedIn free rein to decide, on any basis, who can collect and use data—data that the companies do not own, that they otherwise make publicly available to viewers, and that the companies themselves collect and use—risks the possible creation of information monopolies that would disserve the public interest. " - USA Supreme Court, San Francisco, California.
Cela dit, cette injonction n'empêche pas LinkedIn de continuer à recourir à des "mesures d'auto-assistance technologique", par exemple en utilisant des "mesures anti-bot" pour prévenir des intrusions ou attaques nuisibles sur son serveur.
En conclusion, le débat juridique autour du scraping sur LinkedIn met en lumière les complexités de la gestion des données en ligne et souligne le besoin d'une réglementation claire pour guider les pratiques dans ce domaine.
L'utilisation des données scrapées est autorisée à des fins d'analyse et de consommation publique, voire même pour la prospection commerciale. Cependant, il est crucial de comprendre que l'utilisation des données scrapées doit se faire dans le respect de la loi et de l'éthique.
Cela signifie, éviter les pratiques suivantes :
Sans surprise, aucune forme de plagiat ou d'utilisation frauduleuse des données n’est autorisée par la loi.
En particulier, dans le cadre de la prospection commerciale, il est crucial de respecter les normes de traitement et de stockage des données imposées par la loi RGPD. Une prospection commerciale doit également être menée conformément aux normes légales.
Le web scraping est une pratique légale et représente un outil puissant, que ce soit pour l'analyse de données, la veille concurrentielle, des actions de démarchage, et bien d'autres applications.
Sa pratique est tout à fait acceptable, sous réserve du respect de certaines bonnes pratiques, listées ci-dessous.
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.