⚠️ BROUILLON — version V0 rédigée en interne, à faire valider par un cabinet juridique avant mise en ligne publique. Cible : ~500-1500 €.

Sources de données

Dernière mise à jour : 2026-04-20

Transparence totale sur l'origine des données diffusées par Woxup B2B. Chaque champ d'une fiche est tracé (source + date d'extraction).

1. Catalogue des sources

Total : 63 sources cataloguées et documentées (snapshot 2026-04-20).

🇫🇷 Sources publiques officielles (État)

Source Catégorie Licence Fréquence Référence
SIRENE (INSEE) officiel_etat Licence Ouverte Etalab 2.0 hebdo Lien
RNE (Registre Nat. Entreprises - INPI) officiel_etat Licence Ouverte Etalab 2.0 hebdo Lien
RGE (Reconnu Garant Environnement) label_certif Licence Ouverte Etalab 2.0 hebdo Lien
Qualiopi (formation pro) label_certif Licence Ouverte Etalab 2.0 hebdo Lien
BANCO (assurance/banque) officiel_etat Licence Ouverte Etalab 2.0 hebdo Lien
BODACC (annonces legales) officiel_etat Licence Ouverte Etalab 2.0 hebdo Lien
RNA (Repertoire Nat. Associations) officiel_etat Licence Ouverte Etalab 2.0 trimestriel Lien
Recherche-Entreprises API gouv officiel_etat Licence Ouverte Etalab 2.0 ad_hoc Lien
INPI Marques data.gouv officiel_etat Licence Ouverte Etalab 2.0 trimestriel Lien
Qualit'EnR (chauffagistes EnR) label_certif Public (scrape autorise) trimestriel Lien
Qualibat (BTP) label_certif Public (scrape autorise) trimestriel Lien
Qualifelec (electriciens) label_certif Public (scrape autorise) trimestriel Lien
DPE / Diagnostiqueurs ADEME label_certif Licence Ouverte Etalab 2.0 mensuel Lien
Marches publics BOAMP/PLACE officiel_etat Licence Ouverte Etalab 2.0 hebdo Lien
Subventions data.gouv officiel_etat Licence Ouverte Etalab 2.0 mensuel Lien
Pole emploi (offres + entreprises) officiel_etat API publique gratuite quotidien Lien
BLOCTEL (Opposetel) legal Acces pro demarcheur (gratuit) mensuel Lien
Liste rouge telephone legal A definir mensuel
CNIL plaintes/sanctions (veille) rgpd_compliance Public mensuel Lien

🏛️ Ordres professionnels

Source Catégorie Licence Fréquence Référence
AMELI (pros sante) ordre_pro Licence Ouverte Etalab 2.0 hebdo Lien
CNB Avocats ordre_pro Public trimestriel Lien
Notaires de France ordre_pro Public trimestriel Lien
Commissaires de justice (ex-huissiers) ordre_pro Public trimestriel Lien
Experts-comptables (OEC) ordre_pro Public trimestriel Lien
Conseil National Ordre Medecins ordre_pro Public trimestriel Lien
Ordre des Pharmaciens ordre_pro Public trimestriel Lien
Conseil National Ordre Architectes ordre_pro Public trimestriel Lien
Geometres-experts ordre_pro Public trimestriel Lien

🌐 Sources tierces (APIs / cartographie)

Source Catégorie Licence Fréquence Référence
OpenStreetMap Overpass (geo + contacts) tiers_geo ODbL (share-alike) mensuel Lien
Wikidata SPARQL (entreprises notoires) tiers_geo CC0 mensuel Lien
Google Places (New) tiers_geo Google CGU restrictives ad_hoc Lien
HERE Maps Search tiers_geo HERE CGU ad_hoc Lien
Foursquare Places tiers_geo Foursquare CGU ad_hoc Lien
Yelp Fusion API tiers_avis Yelp CGU ad_hoc Lien
Bing Maps API tiers_geo Microsoft CGU ad_hoc Lien
TomTom Search API tiers_geo TomTom CGU ad_hoc Lien
Mappy (annuaire FR) tiers_geo CGU restrictives - a eviter ad_hoc Lien
Pappers API Premium tiers_geo Pappers CGU ad_hoc Lien
Societe.com data feed tiers_geo Societe.com CGU ad_hoc Lien
Ellisphere (scoring + risk) tiers_geo Ellisphere CGU ad_hoc Lien
Altares D&B (international) tiers_geo Altares CGU ad_hoc Lien
Score3 (sante eco) tiers_geo Score3 CGU ad_hoc Lien
Trustpilot API B2B tiers_avis Trustpilot CGU ad_hoc Lien
Avis-Verifies / Custplace (partenariat) tiers_avis A negocier ad_hoc
Agence Bio (annuaire) label_certif Public scrape OK ad_hoc Lien
Robinson List (equiv emails) rgpd_compliance Optionnel FR mensuel

🏠 Données internes Woxup (scrape, qualité)

Source Catégorie Licence Fréquence Référence
DuckDuckGo HTML (recherche site officiel) scrape_woxup Scrape (interne) continu Lien
Scrape sites officiels (extraction tels/mails) scrape_woxup Scrape (interne) continu
field_evidence (tracabilite interne) infrastructure Interne continu
Health crawler websites (alive/dead/error) scrape_woxup Interne hebdo
Recrawl error sites (GET+UA) scrape_woxup Interne ad_hoc
Cleanup phones (dedup + normalize) data_quality Interne hebdo
Reclassify contacts (interne vs public) data_quality Interne hebdo
Revendication fiche par dirigeant + KYC feature_public Interne continu
Demandes RGPD (acces/rectif/effacement) rgpd_compliance Interne continu

🚫 Sources bloquées juridiquement

Source Catégorie Licence Fréquence Référence
Google Maps Reviews (scrape) tiers_avis Google CGU - interdit ad_hoc
TripAdvisor (scrape) tiers_avis TripAdvisor CGU - interdit ad_hoc
LinkedIn Companies tiers_avis LinkedIn CGU - interdit ad_hoc
Facebook Pages tiers_avis Meta CGU - interdit ad_hoc
Pappers scraping non-officiel tiers_geo Pappers CGU - interdit ad_hoc
Societe.com scraping tiers_geo Societe.com CGU - interdit ad_hoc
Manageo scraping tiers_geo Manageo CGU + payant ad_hoc
Verif.com scraping tiers_geo Verif CGU + redondant ad_hoc

2. Licences applicables

Licence Conditions de réutilisation
Licence Ouverte Etalab 2.0Réutilisation libre commerciale et non-commerciale, mention obligatoire de la source et de la date
ODbL (OpenStreetMap)Share-alike : toute base dérivée doit être publiée sous ODbL. Attribution OSM obligatoire.
CC0 (Wikidata)Domaine public, aucune restriction
Sources publiques scrapéesDonnées publiques rendues accessibles par leur propriétaire ; usage encadré par les CGU de la source d'origine
Données scrapées sur sites officiels d'entreprisesInformation publiée par l'entreprise elle-même sur son propre site. Réutilisation à des fins légitimes (annuaire pro).

3. Traçabilité par champ (field_evidence)

Chaque donnée affichée sur une fiche entreprise est accompagnée de :

  • Le nom de la source exacte (ex: SIRENE, RGE ADEME, scrape site officiel)
  • La date d'extraction
  • L'URL d'origine quand disponible
  • Le collecteur ayant injecté la donnée (script + version)

Cette information est visible en survol des champs sur les fiches publiques + accessible via l'API /api/v2/companies/{siren}?include_evidence=true.

4. Sources NON utilisées (par choix éthique ou juridique)

  • Scraping de Pappers, Societe.com, Manageo, Verif (CGU restrictives)
  • LinkedIn, Facebook, Instagram (CGU strictes + interdit de scraping)
  • Avis Google Maps, TripAdvisor (CGU strictes)
  • Données judiciaires non publiques
  • Données de santé personnelles non agrégées
  • Données fiscales non publiques

5. Mises à jour

La majorité des sources publiques officielles est rafraîchie chaque dimanche à 02h00 UTC. Les sources hebdomadaires apparaissent avec une date d'extraction de moins de 7 jours sur les fiches.

Pour signaler une donnée erronée ou demander un retrait : Droits RGPD · Signalement

Pour toute question : contact@woxup.com · DPO : dpo@woxup.com · Signalement : /legal/signalement