#Data science #Digital

L’importance de la donnée et des bases de données dans l’activité des entreprises d’assurance ne cesse de croître : reportings prudentiels, reportings financiers, analyse de la performance et utilisation de données pour développer de nouveaux produits, les usages qui en sont faits sont aussi divers que complexes.

Au coeur de cette problématique de la donnée, un autre enjeu émerge : comment réaliser efficacement des réconciliations et des rapprochements de données afin d’en assurer la fiabilité ?

Beaucoup d’entreprises utilisent encore Excel pour traiter, analyser et mettre en forme les données. Excel a l’avantage d’être connu de tous et d’avoir une utilisation simple et intuitive. Mais il ne s’agit pas d’un outil de Data Science : il n’est pas capable de gérer le traitement d’un grand nombre de données, et ne devrait être utilisé aujourd’hui que pour présenter des résultats.

Les tâches de réconciliation ont pris une importance croissante et mettent en lumière les limites d’Excel : des traitements très longs, peu flexibles, et impliquant un degré de manualité générateur de risques opérationnels.

Il existe aujourd’hui des outils dédiés à la Data Science qui permettent de fiabiliser, d’analyser et de réconcilier efficacement les données. Les plus importants – Knime, SAS, Alteryx, Dataiku et RapidMiner – ont l’avantage de traiter des bases de données de très grande taille, dépassant largement la limit de 2^20 (environ 1 million) de lignes pour Excel.

L’objectif de ce benchmark est de fournir des informations clés d’aide à la décision pour choisir un outil de réconciliation de données et de fournir des conseils d’implémentation et d’usages.

Pour réaliser ce benchmark, nous nous sommes appuyés sur :

  • Les informations recueillies sur le site Internet de GARTNER.
  • Les informations recueillies via les sites Internet des différents éditeurs d’outils
  • L’expertise de nos consultants qui ont eux-même utilisé les outils mentionnés.

Après une brève présentation des outils, il présente ainsi une analyse comparative et un focus détaillant notre appréciation pour chaque outil. En conclusion figurent des retours d’expérience de nos consultants en mission.

Présentation des outils

Knime (Konstanz Information Miner)

D’abord développé par l’Université de Constance, Knime est maintenant populaire auprès d’une grande communauté de développeurs dans le monde. A l’origine destiné à un usage commercial, Knime est toujours disponible en open source. Il a été écrit en Java et édité avec Eclipse.

Ce logiciel de Data Science est doté d’un périmètre fonctionnel colossal avec plus de 1 000 modules et des applications prêtes à l’emploi. Les modules peuvent être complétés et son caractère open source permet leur évolution constante.

Knime est particulièrement efficace dans le pré-traitement des données, c’est-à-dire l’extraction, la transformation et le chargement des données. Grâce à sa vitesse d’exécution et à sa gestion des workflows, il permet une gestion relativement simple, rapide et efficace de ces pré-traitements.

Knime est également utilisé dans le domaine de la Business Intelligence (BI) : il met à disposition des analyses prédictives destinées à tout type de profil utilisateur (formé ou non sur les méthodes statistiques utilisées pour ces analyses).

SAS (Statistical Analysis System)

SAS est un produit de l’Institut SAS, l’une des plus grandes sociétés non cotées de logiciels au monde. Il s’agit du principal outil de Data Science pour l’analyse d’entreprise. S’il est le plus cher des outils présentés dans cette étude, il est aussi le plus utilisé aujourd’hui par les grandes sociétés.

Vous souhaitez en savoir plus ? Téléchargez notre benchmark !