Forum OSM France

Publier des données OSM "augmentées"?

Lors du SOTM nantais, plusieurs discussions ou présentations ont fait émerger une idée : publier une version « augmentée » des données OSM, pour faciliter les réutilisations.

Une sorte de « Planet+ » où des modifications et ajouts seraient apportées aux données OSM.

J’ouvre ce fil pour juger de l’intérêt (le pourquoi), pas pour rentrer dans l’aspect technique (le comment) qu’il faudra évaluer après avoir validé que ça vaut le coup de se lancer dans cette direction.

Cette « augmentation » permettrait d’avancer sur plusieurs points que je vais détailler.

Les tags obsolètes

Nous avons certains tags qui sont remplacés au fil du temps par d’autres au niveau des usages par les contributeurs.
Parfois, on a même lors d’un vote sur un nouveau tag un consensus pour considérer que l’ancien est obsolète.
Il n’y a pas encore de consensus pour faire un remplacement automatique dans OSM pour faire disparaître des données les tags obsolètes.
Ceci force donc les réutilisateurs à devoir tenir compte de tags actuels et obsolètes en même temps.

Ici, l’augmentation pourrait consister à faire ce remplacement.

Les données intégrables, mais pas intégrées

Le cas typique est celui des adresses… comme celles de BANO en France.

Ici, l’augmentation consisterait à compléter les données OSM avec les adresses manquantes présentes dans BANO (plusieurs façons de faire, je ne détaille pas le côté technique).

On peut envisager aussi de compléter sur d’autres thématiques comme les commerces et POI (par exemple avec la version géocodée de la base SIRENE).

Homogénéiser certains tags

Sur les adresses, plutôt que d’avoir une partie de celles-ci dans des relations addrStreet et d’autres hors relations, on peut tout remettre dans le modèle le plus simple à réutiliser.

Du nettoyage de tags

Corriger les tags erronés les plus courants, les fautes de frappe habituelles, etc.

Appliquer des corrections fiables proposées par osmose

Les analyses osmose fiables (dont le taux de faux négatif est marginal) pourraient aussi servir à appliquer des corrections automatiquement.

Bénéfices

  • simplifie les réutilisations,
  • enrichit les données OSM pour des réutilisations encore plus nombreuses,
  • évite la marche forcée des imports/intégrations qui n’apporte que peut de qualité par rapport à la donnée source.

Risques

  • une moindre contribution provoquée par l’absence d’une info constatée sur une réutilisation

Qu’en pensez-vous ?

1 Like

Est-ce que le résultat de cette consolidation ne pourrait pas être un support d’aide à la contribution nécessitant un minimum d’interaction de la part de l’utilisateur, pour faciliter l’intégration (non automatique, mais partiellement aidée) des différentes améliorations que tu évoques ?
Un outil avec un double intérêt : faciliter les réutilisations, faciliter la consolidation pérenne de la donnée.

Les supports d’aide à la contribution existent déjà (osmose, BANO).
Cette version augmentée sera peu exploitable par des contributeurs et développer de nouveaux bases dessus n’a pas trop de sens de mon point de vue, il vaudrait mieux améliorer les outils existants pour un usage encore plus facile.

[Mode provocation] Tu baisses les bras ou tu veux monter une boîte ? :grinning:

La question que je me pose c’est: qui fait ca? et surtout quel temps pour les mises à jour? J’imagine que ca peut être plus ou moins automatisé, mais j’ai tendance à me méfier.

C’est tout automatique sinon ça ne durera pas.

Je trouve que ça peut être intéressant pour combler le manque d’intégration des adresse et des commerces +1

1 Like

ce sera forcément automatisé oui. Pour le rythme, si on part sur une version monde, ce serait bien de la proposer au même rythme que le planet actuel (hebdomadaire). Il faudra y adjoindre une notice explicitant les différences avec le planet, et bien sûr publier le code de transformation

Du bien :wink:
Par rapport aux risques, dont celui de décourager/tarir la contribution : sans vouloir le négliger, je ne le vois pas comme critique. Rajouter des jeux de donnée en OD ne va pas les rendre meilleurs : les anomalies constatées dans l’OD se retrouveront dans notre planet+, et la manière de les corriger pourrait continuer à passer par la contribution à OSM. Ca ne pourra s’appliquer qu’aux jeux pour lesquels on sait faire du remplacement objet par objet, grâce par exemple à un identifiant connu dans l’OD et dans OSM.

Je ne suis pas d’accord. Qu’est-ce que les données Openstreetmap ont a gagner d’un tel fichier planet+ ?
A priori rien du tout, donc la balance penchera toujours du mauvais côté, même qu’un petit peu.

Dans les transformations à appliquer, il pourrait aussi y avoir celles qui peuvent être faites par osm2pgsql, genre sur oneway=1/yes/-1/no, ou sur maxspeed converti de mph en km/h.

Mon avis sur les modifs de tags, surtout les obsolètes ou homogénéisation, est qu’on devrait pouvoir faire ces modifications directement dans la base OSM, pour que tout le monde en profite.

Pour l’import de données OpenData manquantes dans OSM, ça me semble bien plus pertinent, surtout si on veut pouvoir vérifier sur place ou sur orthophoto, avant import dans OSM, que ces données soient correctes et bien placées par rapport aux données OSM.

1 Like

Le problème c’est qu’il n’y a pas de consensus sur cela au sein de la communauté, et que tout ce qui ressemble à de l’édition automatisé ou des imports est toujours vu de façon très négative par une partie bruyante de la communauté.

Ce qui reste un paradoxe face aux défis qu’il nous faudra relever.

Je suis d’accord… et ces données augmentées sont une façon de faire bouger les choses en contournant l’obstacle. On verra l’adoption, les réactions, et cela ne nous empêche pas de continuer à faire bouger les lignes sur l’automatisation là où elle est pertinente.

1 Like

Excellente idée qui devrait aider à lever les freins habituels à l’adoption d’OSM, je plussoie :slight_smile:

Désolé, c’est moi qui ai grandement contribué à propager cette idée cette année au SotM-FR. C’est un sujet que j’ai en tête depuis plusieurs années et que j’ai déjà évoqué avec certains d’entres vous par le passé.

Pour remettre les choses en contexte. Je pense que le sujet arrive de plus en plus sur le devant de la scène. Facebook et son projet Daylightmap https://daylightmap.org/ + MaRS MaRS: How we keep maps current and accurate - Engineering at Meta font déjà quelque chose que l’on peut qualifier de « distribution » OSM (avec un peu le même sens que « distribution » Linux).

MaRS est un système pour filtrer les mise à jour de données OSM pour avoir une copie « propre » qui est distribué sous le nom de Daylightmap.

À côté de ça, des données complémentaires détectées par IA sont disponibles : bâtiments et routes.

Ces données sont déjà utilisées par de grand acteur à la place d’une version OSM « vanilla » ( = de base, pour reprendre la terminologie Linux) : par Facebook évidemment, mais aussi ESRI ou MapTiler. Les cartes qu’ils diffusent ne sont donc plus des OSM de base.

tu veux monter une boîte ?

Ce n’est pas une question anodine, Meta est déjà sur le créneau. Ces dernières années j’ai déjà eu vent de compagnies qui voulaient se lancer sur le sujet. Mais jusqu’a présent je n’ai jamais rien vue sortir.

Je pense que l’ensemble de ces signets montre que l’idée est à creuseur. Il me parait préférable de lancer quelque chose et d’éviter de se retrouver avec Meta comme dealer principal de données OSM.

Concernant le projet lui-même il faut évidemment que ce soit automatique. La question de la documentation est également très importante pour faciliter la réutilisation.

2 Likes

Pour et contre en même temps.

Est-il possible de facilement rendre les données opendata distinguables des données osm ? Le but étant d’identifier les données absentes d’osm.

Oui, dans mon PoC actuel, j’ai forcé le numéro de version à 9999 sur ces objets.

Voir: PoC Planet+ (le côté technique)

j’ai forcé le numéro de version à 9999 sur ces objets.

Je pense que l’on peut être plus explicite. On a les tags OSM pour ça, dont source.

Bien entendu j’ai ENCORE confondu BDD et rendu…
Sur le premier rendu qui sera peut-être standard, identifier les objets 999 d’une couleur particulière .