⚠️ BROUILLON — version V0 rédigée en interne, à faire valider par un cabinet juridique avant mise en ligne publique. Cible : ~500-1500 €.
Sources de données
Dernière mise à jour : 2026-04-20
Transparence totale sur l'origine des données diffusées par Woxup B2B. Chaque champ d'une fiche est tracé (source + date d'extraction).
1. Catalogue des sources
Total : 63 sources cataloguées et documentées (snapshot 2026-04-20).
🇫🇷 Sources publiques officielles (État)
| Source | Catégorie | Licence | Fréquence | Référence |
|---|---|---|---|---|
| SIRENE (INSEE) | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| RNE (Registre Nat. Entreprises - INPI) | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| RGE (Reconnu Garant Environnement) | label_certif | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| Qualiopi (formation pro) | label_certif | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| BANCO (assurance/banque) | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| BODACC (annonces legales) | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| RNA (Repertoire Nat. Associations) | officiel_etat | Licence Ouverte Etalab 2.0 | trimestriel | Lien |
| Recherche-Entreprises API gouv | officiel_etat | Licence Ouverte Etalab 2.0 | ad_hoc | Lien |
| INPI Marques data.gouv | officiel_etat | Licence Ouverte Etalab 2.0 | trimestriel | Lien |
| Qualit'EnR (chauffagistes EnR) | label_certif | Public (scrape autorise) | trimestriel | Lien |
| Qualibat (BTP) | label_certif | Public (scrape autorise) | trimestriel | Lien |
| Qualifelec (electriciens) | label_certif | Public (scrape autorise) | trimestriel | Lien |
| DPE / Diagnostiqueurs ADEME | label_certif | Licence Ouverte Etalab 2.0 | mensuel | Lien |
| Marches publics BOAMP/PLACE | officiel_etat | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| Subventions data.gouv | officiel_etat | Licence Ouverte Etalab 2.0 | mensuel | Lien |
| Pole emploi (offres + entreprises) | officiel_etat | API publique gratuite | quotidien | Lien |
| BLOCTEL (Opposetel) | legal | Acces pro demarcheur (gratuit) | mensuel | Lien |
| Liste rouge telephone | legal | A definir | mensuel | — |
| CNIL plaintes/sanctions (veille) | rgpd_compliance | Public | mensuel | Lien |
🏛️ Ordres professionnels
| Source | Catégorie | Licence | Fréquence | Référence |
|---|---|---|---|---|
| AMELI (pros sante) | ordre_pro | Licence Ouverte Etalab 2.0 | hebdo | Lien |
| CNB Avocats | ordre_pro | Public | trimestriel | Lien |
| Notaires de France | ordre_pro | Public | trimestriel | Lien |
| Commissaires de justice (ex-huissiers) | ordre_pro | Public | trimestriel | Lien |
| Experts-comptables (OEC) | ordre_pro | Public | trimestriel | Lien |
| Conseil National Ordre Medecins | ordre_pro | Public | trimestriel | Lien |
| Ordre des Pharmaciens | ordre_pro | Public | trimestriel | Lien |
| Conseil National Ordre Architectes | ordre_pro | Public | trimestriel | Lien |
| Geometres-experts | ordre_pro | Public | trimestriel | Lien |
🌐 Sources tierces (APIs / cartographie)
| Source | Catégorie | Licence | Fréquence | Référence |
|---|---|---|---|---|
| OpenStreetMap Overpass (geo + contacts) | tiers_geo | ODbL (share-alike) | mensuel | Lien |
| Wikidata SPARQL (entreprises notoires) | tiers_geo | CC0 | mensuel | Lien |
| Google Places (New) | tiers_geo | Google CGU restrictives | ad_hoc | Lien |
| HERE Maps Search | tiers_geo | HERE CGU | ad_hoc | Lien |
| Foursquare Places | tiers_geo | Foursquare CGU | ad_hoc | Lien |
| Yelp Fusion API | tiers_avis | Yelp CGU | ad_hoc | Lien |
| Bing Maps API | tiers_geo | Microsoft CGU | ad_hoc | Lien |
| TomTom Search API | tiers_geo | TomTom CGU | ad_hoc | Lien |
| Mappy (annuaire FR) | tiers_geo | CGU restrictives - a eviter | ad_hoc | Lien |
| Pappers API Premium | tiers_geo | Pappers CGU | ad_hoc | Lien |
| Societe.com data feed | tiers_geo | Societe.com CGU | ad_hoc | Lien |
| Ellisphere (scoring + risk) | tiers_geo | Ellisphere CGU | ad_hoc | Lien |
| Altares D&B (international) | tiers_geo | Altares CGU | ad_hoc | Lien |
| Score3 (sante eco) | tiers_geo | Score3 CGU | ad_hoc | Lien |
| Trustpilot API B2B | tiers_avis | Trustpilot CGU | ad_hoc | Lien |
| Avis-Verifies / Custplace (partenariat) | tiers_avis | A negocier | ad_hoc | — |
| Agence Bio (annuaire) | label_certif | Public scrape OK | ad_hoc | Lien |
| Robinson List (equiv emails) | rgpd_compliance | Optionnel FR | mensuel | — |
🏠 Données internes Woxup (scrape, qualité)
| Source | Catégorie | Licence | Fréquence | Référence |
|---|---|---|---|---|
| DuckDuckGo HTML (recherche site officiel) | scrape_woxup | Scrape (interne) | continu | Lien |
| Scrape sites officiels (extraction tels/mails) | scrape_woxup | Scrape (interne) | continu | — |
| field_evidence (tracabilite interne) | infrastructure | Interne | continu | — |
| Health crawler websites (alive/dead/error) | scrape_woxup | Interne | hebdo | — |
| Recrawl error sites (GET+UA) | scrape_woxup | Interne | ad_hoc | — |
| Cleanup phones (dedup + normalize) | data_quality | Interne | hebdo | — |
| Reclassify contacts (interne vs public) | data_quality | Interne | hebdo | — |
| Revendication fiche par dirigeant + KYC | feature_public | Interne | continu | — |
| Demandes RGPD (acces/rectif/effacement) | rgpd_compliance | Interne | continu | — |
🚫 Sources bloquées juridiquement
| Source | Catégorie | Licence | Fréquence | Référence |
|---|---|---|---|---|
| Google Maps Reviews (scrape) | tiers_avis | Google CGU - interdit | ad_hoc | — |
| TripAdvisor (scrape) | tiers_avis | TripAdvisor CGU - interdit | ad_hoc | — |
| LinkedIn Companies | tiers_avis | LinkedIn CGU - interdit | ad_hoc | — |
| Facebook Pages | tiers_avis | Meta CGU - interdit | ad_hoc | — |
| Pappers scraping non-officiel | tiers_geo | Pappers CGU - interdit | ad_hoc | — |
| Societe.com scraping | tiers_geo | Societe.com CGU - interdit | ad_hoc | — |
| Manageo scraping | tiers_geo | Manageo CGU + payant | ad_hoc | — |
| Verif.com scraping | tiers_geo | Verif CGU + redondant | ad_hoc | — |
2. Licences applicables
| Licence | Conditions de réutilisation |
|---|---|
| Licence Ouverte Etalab 2.0 | Réutilisation libre commerciale et non-commerciale, mention obligatoire de la source et de la date |
| ODbL (OpenStreetMap) | Share-alike : toute base dérivée doit être publiée sous ODbL. Attribution OSM obligatoire. |
| CC0 (Wikidata) | Domaine public, aucune restriction |
| Sources publiques scrapées | Données publiques rendues accessibles par leur propriétaire ; usage encadré par les CGU de la source d'origine |
| Données scrapées sur sites officiels d'entreprises | Information publiée par l'entreprise elle-même sur son propre site. Réutilisation à des fins légitimes (annuaire pro). |
3. Traçabilité par champ (field_evidence)
Chaque donnée affichée sur une fiche entreprise est accompagnée de :
- Le nom de la source exacte (ex: SIRENE, RGE ADEME, scrape site officiel)
- La date d'extraction
- L'URL d'origine quand disponible
- Le collecteur ayant injecté la donnée (script + version)
Cette information est visible en survol des champs sur les fiches publiques + accessible via l'API /api/v2/companies/{siren}?include_evidence=true.
4. Sources NON utilisées (par choix éthique ou juridique)
- Scraping de Pappers, Societe.com, Manageo, Verif (CGU restrictives)
- LinkedIn, Facebook, Instagram (CGU strictes + interdit de scraping)
- Avis Google Maps, TripAdvisor (CGU strictes)
- Données judiciaires non publiques
- Données de santé personnelles non agrégées
- Données fiscales non publiques
5. Mises à jour
La majorité des sources publiques officielles est rafraîchie chaque dimanche à 02h00 UTC. Les sources hebdomadaires apparaissent avec une date d'extraction de moins de 7 jours sur les fiches.
Pour signaler une donnée erronée ou demander un retrait : Droits RGPD · Signalement