Centurion19 - FRANCESTAT

Ajouts et améliorations de la version 19

Statgraphics Centurion 19 est une mise à jour majeure contenant de nombreuses nouvelles fonctionnalités dont :

Une nouvelle interface graphique utilisant des rubans qui rend plus rapide l’accès aux procédures et à leurs options.
Une interface avec le langage Python qui facilite l’échange des données, l’utilisation des scripts et l’accès aux librairies comme par exemple la méthode de classification des K-moyennes.
Plus d’une douzaine de nouvelles procédures, dont l’analyse d’équivalence et de non-infériorité pour des variances, la régression quantile, la régression linéaire par morceaux, les régressions de Poisson et binomiale à inflation de 0, les ajustements de modèles de mélanges gaussiens univariés et bivariés, des procédures d’apprentissage machine comme les forêts aléatoires décisionnelles, les diagrammes en cascade et les diagrammes de Ven et Euler.
L’ajout des plans alias-optimaux dans l’assistant pour les plans d’expériences ainsi que d’une procédure de recherche des essais optimaux pour augmenter un plan existant.
Un nouvel outil ‘Tableau de bord’ qui indique les statuts de procédures comme les cartes de contrôle et les analyses d’aptitude.

Nouvelle interface graphique

La sélection des procédures et des options est maintenant pilotée par des rubans et une barre d’accès rapide.

Les rubans rendent plus facile l’accès à la procédure souhaitée et la barre d’accès rapide permet de s’affranchir des menus lors de l’utilisation des procédures favorites.

La fenêtre d’analyse peut être affichée sous la forme de multiples sous-fenêtres (comme dans les précédentes versions) ou sous la forme d’une unique fenêtre contenant à la fois les tableaux et les graphiques.

L’affichage dans une unique fenêtre combine les tableaux et les graphiques dans le format habituel d’un rapport.

Comme montré dans ces images, les en-têtes des lignes et des colonnes des tableaux peuvent être affichés dans des couleurs et des polices personnalisables.

Tableau de bord

Un ‘Tableau de bord’ a été ajouté aux fenêtres du StatFolio permettant d’afficher côte à côte des tableaux et des graphiques provenant de différentes analyses. Pour des procédures comme les cartes de contrôle, les analyses d’aptitude, les études R&R, les régressions et les graphiques boursiers, la couleur de fond d’un tableau ou d’un graphique peut être colorée en vert, jaune ou rouge pour indiquer les statuts d’indices sélectionnés, des larges variations et ou des résidus non usuels.

Mélanges gaussiens univariés

La procédure ‘Ajustement de lois (Modèles de mélanges univariés)’ ajuste une loi de probabilités à des données numériques continues constituées d’un mélange de deux lois normales univariées ou plus. Les composants du mélange peuvent représenter différents groupes dans l’échantillon utilisé pour ajuster la loi globale ou le modèle de mélange peut approximer une loi ayant une forme compliquée. La procédure ajuste la loi, affiche des graphiques et calcule des aires sous la courbe et des valeurs critiques. Des outils sont disponibles pour déterminer combien de composants sont nécessaires pour représenter adéquatement les données de l’échantillon.

Mélanges gaussiens bivariés

La procédure ‘Ajustement de lois (Modèles de mélanges bivariés)’ ajuste une loi de probabilités à des données numériques continues qui sont constituées d’un mélange de deux lois normales bivariées ou plus. Les composants du mélange peuvent représenter différents groupes dans l’échantillon utilisé pour ajuster la loi globale ou le modèle de mélange peut approximer une loi ayant une forme compliquée. La procédure ajuste la loi, affiche des graphiques et calcule des aires sous la courbe et des valeurs critiques. Des outils sont disponibles pour déterminer combien de composants sont nécessaires pour représenter adéquatement les données de l’échantillon.

Régression linéaire par morceaux

La procédure ‘Régression linéaire par morceaux’ est conçue pour ajuster un modèle de régression dans lequel la relation entre la variable à expliquer Y et la variable explicative X est une fonction continue constituée de deux morceaux linéaires ou plus. La fonction est estimée en utilisant les moindres carrés non linéaires. L’utilisateur précise le nombre de morceaux et les valeurs initiales des positions auxquelles les morceaux se rejoignent. La procédure estime les pentes, les modifications des pentes et les positions auxquelles les pentes se modifient.

Etudes de stabilité

Les études de stabilité sont couramment utilisées par l’industrie pharmaceutique pour estimer le taux de dégradation d’un médicament et déterminer une durée de conservation. Les mesures sont classiquement effectuées sur des échantillons provenant de plusieurs lots prélevés à différents instants. Le but premier est d’estimer l’instant auquel la limite de prévision inférieure du modèle de dégradation croise la limite de spécification inférieure pour le médicament. En fonction de la structure des données, les lots peuvent être traités comme un facteur fixe ou un facteur aléatoire.

Régression quantile

La procédure ‘Régression quantile’ ajuste des modèles linéaires pour décrire la relation entre des quantiles sélectionnés de la variable à expliquer Y et une ou plusieurs variables explicatives X. Les variables explicatives peuvent être quantitatives ou qualitatives. A la différence de la procédure de régression multiple dans laquelle le modèle est utilisé pour prévoir la réponse moyenne, le modèle de régression quantile peut être utilisé pour prévoir tout centile. La régression médiane est un cas spécial dans lequel le centile à prévoir est le 50ème centile.

Plans d’expériences alias-optimaux

Ces nouveaux plans d’expériences créés par l’assistant pour les plans d’expériences considèrent non seulement la précision dans les coefficients estimés du modèle mais également le biais potentiel dans ces estimations causé par des effets actifs non présents dans le modèle supposé. Un critère comme la D-optimalité ne prend pas en compte la structure d’alias créée par les effets omis. Parfois des plans D-optimaux alternatifs peuvent avoir des structures d’alias très différentes. D’autres fois, une petite réduction de l’optimalité du plan sélectionné peut provoquer une large réduction du biais.

Augmentation optimale d’un plan d’expériences

Une nouvelle fonctionnalité a été ajoutée à l’assistant pour les plans d’expériences pour ajouter des essais à un plan d’expériences existant de façon à améliorer un critère d’optimalité. L’utilisateur sélectionne d’abord le nombre d’essais à ajouter puis complète le boîte de dialogue montrée ci-dessous.

Tests d’équivalence – Comparer des variances

De nouvelles procédures ont été ajoutées pour démontrer l’équivalence ou la non-infériorité de variances de populations. Une procédure compare la variance d’un unique échantillon à une valeur cible et l’autre compare les variances de deux échantillons provenant de deux populations différentes. Dans ce second cas, les échantillons sont considérés comme équivalents si le rapport des variances respectives appartient à un intervalle donné autour de 1.

Etudes R&R – Méthode GLM

La méthode GLM estime la répétabilité et la reproductibilité d’un système de mesure en se basant sur une étude dans laquelle m opérateurs mesurent n pièces r fois. Elle estime également d’importantes quantités comme la variation totale, le rapport précision sur tolérance, l’écart-type de l’erreur de mesure et les pourcentages des contributions de divers composants à l’erreur. En plus de la variation introduite par les opérateurs et les pièces, des facteurs additionnels peuvent également être inclus. Ces facteurs additionnels peuvent être considérés comme des effets fixes ou aléatoires. Note : Cette procédure prend en charge le cas de données non équilibrées.

Forêts aléatoires décisionnelles

La procédure ‘Forêts aléatoires décisionnelles’ implémente une méthode d’apprentissage machine pour prévoir des observations à partir de données. Elle crée des modèles de deux formes :
– Modèles décisionnels qui découpent les observations en groupes basés sur les caractéristiques observées.
– Modèles de régression qui prévoient la valeur d’une variable à expliquer.
Les modèles sont élaborés en construisant un grand nombre d’arbres de décision et en faisant la moyenne des prévisions obtenues à partir de ces arbres. De nombreux arbres sont construits en utilisant une procédure similaire à celle des arbres de décision et de régression avec optimisation aléatoire des noeuds et agrégation de bootstrap (bagging).

Régression à inflation de 0

La procédure ‘Régression à inflation de 0’ est conçue pour ajuster un modèle de régression dans lequel la variable à expliquer est constituée de comptages. Le modèle de régression ajusté relie Y à une ou plusieurs variables prédictrices X qui peuvent être quantitatives ou qualitatives. Elle est similaire aux procédures ‘Régression de Poisson’ et ‘Régression binomiale négative’ sauf qu’elle contient une composante additionnelle qui représente les occurrences d’un plus grand nombre de zéros que ce qui est attendu dans de tels modèles. Les données qui contiennent ces grands nombres de zéros sont très fréquentes, comme par exemple le nombre de jours d’absence d’un étudiant à l’école, le nombre de réclamations d’assurance au sein d’une population où tout le monde n’a pas d’assurance, le nombre de défauts dans un produit manufacturé et les comptages d’animaux sauvages.

Diagrammes de Venn et Euler

Cette procédure crée des diagrammes affichant des fréquences d’occurrences d’événements. Elle affiche des régions circulaires qui représentent les fréquences d’événements spécifiques dans lesquelles les intersections cercles indiquent des occurrences simultanées de plus d’un événement.

Diagrammes en cascade

Trois types de diagrammes en cascade ont été ajoutés dans la version 19 : un diagramme ordonné, un diagramme séquentiel et un diagramme 3D. Le diagramme en cascade ordonné est fréquemment utilisé pour montrer comment une variable d’intérêt augmente ou diminue dans un échantillon d’individus. Les données sont triées et affichées dans un diagramme en bâtons ayant habituellement une ligne de base à 0. Une ligne de référence peut être ajoutée dans le diagramme pour afficher une valeur cible.

Le diagramme en cascade séquentiel est fréquemment utilisé pour illustrer l’effet cumulé de contributions positives et négatives dans la décroissance d’une valeur totale. Les bâtons représentent chacune des contributions ainsi que les totaux et sous-totaux. Parmi les usages possibles de ce diagramme : finance, inventaire, analyse de performance, recrutement, analyse démographique.

Le diagramme en cascade 3D est fréquemment utilisé pour afficher plusieurs colonnes de données par rapport à une variable commune. Un exemple courant d’utilisation est le tracé de décroissance spectrale cumulative dans lequel un spectre est affiché à plusieurs instants pour visualiser les modifications de son amplitude en fonction de la fréquence et du temps. En général, ces graphiques sont utilisés pour montrer les modifications dans une variable quantitative en fonction du temps et d’un autre facteur.

Interface Python

La version 19 ajoute une interface avec le langage de programmation Python qui est similaire à l’interface avec R ajouté dans la version 18. Des procédures ont été ajoutées pour rendre aisé le transfert des données entre Statgraphics et Python. Les scripts Python peuvent également être écrits et exécutés dans Statgraphics.

Classification par les K-moyennes

La procédure ‘Classification par les K-moyennes’ implémente un technique d’apprentissage machine permettant de créer des groupes ou classes d’observations caractérisés par des données quantitatives multivariées. Les classes sont créées en regroupant les observations qui sont proches dans l’espace des variables de données. Les calculs sont effectués en utilisant le module ‘Scikit-Learn’ de Python.

Nouvelles lois de probabilités

Plusieurs nouvelles lois de probabilités ont été ajoutées à la liste des lois disponibles pour ajuster des données et générer des nombres aléatoires :
– la loi de Poisson à inflation de 0.
– la loi binomiale à inflation de 0.
– la famille des lois de Johnson SB, SL et SU.

Analyse de conformité pour les analyses d’aptitude d’attributs

L’analyse de conformité a été ajoutée aux procédures pour déterminer des indices d’aptitude pour des données de type attribut. L’analyse de conformité peut être utilisée pour déterminer si le process est conforme aux spécifications définies en termes d’items non conformes dans un lot.

Nouveaux tests statistiques

Plusieurs nouveaux tests statistiques ont été ajoutées à des procédures déjà présentes :
– Test de Levene modifié pour comparer les variances de plusieurs échantillons.
– Test de Wald-Wolfowitz pour tester l’hypothèse que deux échantillons indépendants proviennent de la même population.
– Test post-hoc de Games-Howell pour les comparaisons multiples dans l’analyse de la variance à un facteur.

MSP – Cartes de contrôle

Le nombre de points auxquels les limites de contrôle peuvent être recalculées a été porté de 4 à 9.

Graphique des données manquantes

Un graphique a été ajouté dans la procédure ‘Visualiseur de données’ pour indiquer les positions des données manquantes dans un fichier de données.

Diagramme multiple en bâtons

Une ligne optionnelle peut être ajoutée dans le diagramme multiple en bâtons.

Modèle linéaire général (GLM)

La sélection pas à pas des variables a été ajoutée dans la procédure GLM à la fois pour les variables quantitatives et les variables qualitatives. De plus, l’entrée des interactions et d’autres termes d’ordres élevés a été simplifiée.

Comparaison d’échantillons appariés

Deux nouveaux graphique de diagnostics ont été ajoutés à la procédure de comparaison d’échantillons appariés. Le premier est un graphique diagonal qui affiche les valeurs appariées avec une ligne diagonale. Le second graphique affiche les résidus autour de la ligne Y=X.

Autres modifications

De nouvelles options ont été ajoutées dans le logiciel :

– Possibilité de défaire plusieurs opérations consécutives dans l’éditeur des données.
– Possibilité d’inverser l’ordre des lignes dans la feuille des données.
– Possibilité d’enregistrer les images contenues dans la StatGallery dans des fichiers images.
– Possibilité d’enregistrer des graphiques avec une couleur de fond transparente.
– Possibilité de modifier la taille des points lors de l’enregistrement des graphiques.
– Limites unilatérales de prévision dans les modèles d’étalonnage.
– Lignes optionnelles pour séparer les classes dans les dendrogrammes.
– Possibilité d’optimiser uniquement les variables sélectionnées dans l’assistant pour les plans d’expériences.
– Graphique de normalité ajouté dans de nombreuses procédures.
– Possibilité d’entrer les données sous la forme de plusieurs colonnes ou de deux colonnes données et codes dans le graphique radar.
– Importation directe des projets Minitab, des fichiers SAS Transport et SPSS Portable.