17

La collecte de données inclue une identification et une description des variables qui peuvent prendre des formes différentes.

On parle de variables statistiques qualitatives lorsque leurs modalités prennent des valeurs textuelles, comme les différents modèles de commutateurs ou les versions de firmware. Il existe différentes appellations de variables statistiques qualitatives que nous n’aborderons pas ici.

Il s’agit de variables statistiques quantitatives lorsque celles-ci prennent des valeurs chiffrées, comme un débit ou une latence. Nous pouvons évoquer deux types couramment rencontrés : les variables discrètes qui sont caractérisées par des entiers relatifs dénombrables, c’est à dire appartenant à un nombre fini de possibilités et les variables continues pouvant prendre une infinité de valeurs constituées de nombres réels.

Lorsqu’il s’agit de valeurs quantitatives, il convient de ranger les données pour voir apparaître les valeurs minimum et maximum, tout en faisant apparaître le nombre de valeurs. Lorsque le nombre de données augmente, on se rend rapidement compte que le simple rangement de données devient insuffisant.

Une des méthodes communément utilisée est de regrouper les valeurs proches par intervalles significatifs. Chaque intervalle s’appelle une classe. Une fois que les intervalles sont créés, il reste à compter le nombre d’occurrences prenant une valeur dans chacune des classes, c’est ce qu’on appelle la fréquence de la classe. La distribution des fréquences consiste à regrouper les données dans des classes.

Pour réaliser la distribution des fréquences, il faut déterminer le nombre de classes et la largeur des classes. Cette dernière est propre à chaque cas de figure, mais d’une manière générale on peut déterminer la largeur avec la formule suivante : [latex]Largeur = \frac{Valeur \; max - Valeur \; min}{Nombre \; de \; classes}[/latex]. Bien qu’il soit fréquent d’utiliser des largeurs de classe identiques, il n’y a pas de règles et la largeur de classe, tout autant que le nombre de classes, peuvent être établis de façon empirique.

Une fois les tableaux constitués, il est beaucoup plus parlant de passer à une représentation graphique. Par ailleurs, le RFC 2889 (Benchmarking Methodology for LAN Switching Devices) préconise de représenter les données sous forme de graphes. On distingue deux types de représentations qui vont nous intéresser et devront être choisis en fonction du contexte : l’histogramme permettant de représenter clairement la fréquence pour chaque classe et le polygone de fréquences qui sera plus approprié pour comparer deux distributions.

 

 

Licence

Partagez ce livre