Problématique
Dans le cadre de la mise en place d’un nouveau système d’information, les entreprises sont souvent confrontées au même problème : comment ne pas importer les doublons des anciennes banques de données. Il est évidemment plus intéressant d’importer des données nettoyées, fusionnées, sans perdre les liens que chaque entité avant fusion possédait dans son emplacement d’origine.
Solution apportée
Plusieurs de ses clients s’étant retrouvés dans le cas, Arpaweb a développé l’extranet Duplicates Merger. Un travail préalable est de réunir, au sein d’une même base de données, toutes les sources de données de l’entreprise, sans perdre les identifiants au sein de chaque source. Ensuite, on définit les critères de déduplication pour les sociétés et pour les personnes: nom, adresse normalisée, email, … Sur cette base, il ne reste plus qu’à procéder à la fusion des sociétés/personnes: l’utilisateur choisit un groupe de doublons à traiter puis définit l’enregistrement maître. Le logiciel lui présente alors les valeurs différentes dans les autres enregistrements, l’utilisateur ayant la possibilité, champ par champ, de prendre la valeur d’un autre enregistrement.
En complément
Lorsque le travail de fusion est terminé, le logiciel permet d’exporter la banque de données nettoyée pour import dans le nouveau système d’information, ainsi que d’autres fichiers contenant l’historique de ce qui a été fait et les identifiants d’origine pour traitements ultérieurs.