Accueil / Blog / Data Analysis / Comment analyser un tableau de données ?

Comment analyser un tableau de données ?

Temps de lecture
illustration d'un tableau de donnée à analyser

Souvent, lorsque l’on souhaite comprendre le fonctionnement d’un procédé, on se retrouve face à un tableau de données du type ci-dessous. Dans cet exemple, on souhaite voir quels sont les paramètres qui influent sur le pH d’une piscine.

Fournisseur PastilleTempérature eauTemps entre 2 pastillespH
A21.88.07.5
A21.95.07.4
A23.49.07.4
A21.710.07.2

C’est-à-dire un tableau contenant de multiples lignes, chacune des lignes contenant l’information de la mesure que l’on souhaite améliorer (ici le pH) et les conditions du procédé au moment de la fabrication/mesure (ici le type de fournisseur de pastilles, la température de l’eau et le temps depuis la dernière pastille). La difficulté dans ce type d’exercice est de savoir comment est-ce que l’on peut analyser les données et découvrir à partir de ces données comment fonctionne le procédé.

????Astuce: Ne pas fusionner les cases dans Excel lorsque l’on construit ce type de tableau car cela complique en général l’analyse à posteriori.

Etape 1 pour analyser ses données : On regarde le tableau droit dans les yeux

Notre première réaction face à ce type de tableau est souvent de le regarder droit dans les yeux et d’essayer de comprendre à partir des chiffres comment se comporte le procédé. Je vous laisse faire, mais ce n’est pas évident car notre cerveau n’est pas fait pour ça. En effet, 70% de nos cellules nerveuses sont faites pour analyser des informations visuelles. Or un tableau de chiffre ne contient pas beaucoup d’information visuelle, surtout des chiffres que nous aurons du mal à interpréter. Si l’on veut se faire une intuition, il faut donc rapidement passer à l’étape 2.

Etape 2 pour analyser ses données : On construit des graphiques

Notre cerveau fonctionnant de manière visuelle, on va le satisfaire en lui donnant des graphiques à regarder.

Le graphique ci-dessus montre les mesures de pH en fonction des deux fournisseurs A et B. Tout de suite, ça fonctionne mieux, on voit que le fournisseur de pastilles semble avoir une influence sur le pH de notre piscine.. Pour autant, le fait de faire des graphiques ne doit surtout pas être l’étape ultime de notre analyse. Car si elle permet à notre cerveau de se faire une intuition, elle n’apporte pas la preuve que le fournisseur de pastilles a bien une influence sur le pH de la piscine. Pour cela, il nous faut une preuve statistique.

Etape 3 pour analyser ses données : La preuve par les tests statistiques

Une fois que l’on sait quels sont les graphiques intéressants, il suffit de demander à Ellistat de nous apporter la preuve statistique de ce que l’on avance en cliquant sur le bouton « preuve statistique ». On obtient alors la fenêtre suivante :

En lisant bien ce que nous dit Ellistat, on voit que la différence des moyennes (Test ANAVAR et TEST T) est statistiquement « très significativement différente ». Cela apporte la preuve de l’influence du fournisseur. Il ne s’agit plus d’une intuition mais d’une preuve.

Etape 4 pour analyser ses données : Modéliser le processus

Parfait, nous avons montré l’influence du fournisseur de pastille. C’est bien mais peut-on aller plus loin ? Et bien oui en cherchant à modéliser le processus. Au lieu d’analyser les colonnes une par une, on va chercher à analyser de multiples colonnes à la fois à l’aide d’une régression multiple. Le résultat est le suivant :

En utilisant la régression multiple, on voit non seulement que l’influence du fournisseur de pastilles est statistiquement significative (Lire la colonne Signif), mais en plus on voit que le temps depuis la dernière pastille est également influent. Et tout cela en une seule étude, c’en est presque magique.

Pour aller plus loin, il vous suffit de vous rendre dans l’onglet prévision pour être capable de prédire le pH de la piscine en fonction du type de fournisseur, du temps entre deux pastilles et de la température de l’eau :

Ainsi, on voit qu’en utilisant le fournisseur A et un temps entre deux pastilles de 7.5 jours on prédit un pH moyen de 7.4.

Conclusion

Analyser un tableau de données n’est pas si compliqué que cela. Il vous suffit de bien maîtriser les 3 dernières étapes de cet article pour comprendre comment fonctionnent vos procédés. Pour vous aider dans ce processus Ellistat vous guide tout au long de l’étude pour que vous n’ayez pas à vous soucier des calculs statistiques mais que vous vous concentriez surtout sur la compréhension physique des phénomènes.