Les 10 meilleurs algorithmes en data mining

L'exploration de données permet de tirer des conclusions importantes grâce à de nombreuses observations complexes.

Arbres de décision

Les algorithmes d'arbre de décision consistent à organiser les données lors d'élections en concurrence, formant des branches d'influence après une décision initiale. Le tronc de l'arbre représente la décision initiale et commence par une question de oui ou non, comment prendre le petit-déjeuner ou non. Prendre le petit-déjeuner et ne pas prendre le petit-déjeuner seraient les deux branches divergentes de l'arbre, et chaque choix ultérieur aurait ses propres branches divergentes qui aboutiraient à un point final.

L'algorithme K-means

L'algorithme K-means est basé sur l'analyse de groupes. Essayez de diviser les données collectées en "grappes" séparées, regroupées par caractéristiques communes.

Machines à vecteurs de support

Les algorithmes des machines à vecteurs de support prennent des données d'entrée et prédisent laquelle des deux catégories possibles comprend les données d'entrée. Un exemple serait de collecter les codes postaux d'un groupe d'électeurs et d'essayer de prédire si un électeur est un démocrate ou un républicain.

L'algorithme a priori

L'algorithme a priori contrôle généralement les données de la transaction. Par exemple, dans un magasin de vêtements, l’algorithme peut contrôler les chemises que les clients achètent généralement ensemble.

L'algorithme EM

Cet algorithme définit les paramètres en analysant les données et prédit la possibilité d’une sortie future ou d’un événement aléatoire au sein des paramètres de données. Par exemple, l'algorithme EM pourrait essayer de prédire le moment d'une prochaine éruption d'un geyser sur la base des données temporelles des éruptions passées.

Algorithme de PageRank

L'algorithme PageRank est un algorithme de base pour les moteurs de recherche. Evaluez et estimez la pertinence d'un élément de données donné dans un grand ensemble, tel qu'un seul site Web dans un plus grand ensemble de tous les sites Web.

Algorithme AdaBoost

L'algorithme AdaBoost fonctionne avec d'autres algorithmes d'apprentissage qui anticipent le comportement en fonction des données observées, de sorte qu'ils soient sensibles aux extrêmes statistiques. Bien que l'algorithme EM puisse être biaisé en raison d'un geyser qui a deux éruptions en moins d'une minute lorsqu'il a normalement une éruption cutanée une fois par jour, l'algorithme AdaBoost modifierait la sortie de l'algorithme EM en analysant la pertinence du point final.

Algorithme du k voisin le plus proche

Cet algorithme reconnaît les modèles dans l'emplacement des données et les associe aux données avec un identificateur plus grand. Par exemple, si vous souhaitez affecter un bureau de poste à chaque emplacement géographique de la maison et que vous disposez d'un ensemble de données pour chaque emplacement géographique de la maison, l'algorithme du k voisin le plus proche assignera les maisons au bureau de poste le plus proche en fonction de leur proximité.

Naive Baye

L'algorithme Naive Baye prédit la sortie d'une identité sur la base des données d'observations connues. Par exemple, si une personne mesure 1, 97 m de haut et porte des chaussures d'une taille 14, l'algorithme Naive Baye pourrait prédire avec une certaine probabilité que la personne est un homme.

Algorithme CART

"CART" est un acronyme en anglais qui signifie analyse et classification par arbre de régression. À l'instar de l'analyse des arbres de décision, il organise les données en fonction des options en concurrence, comme si une personne avait survécu à un séisme. Contrairement aux algorithmes des arbres de décision, qui ne peuvent classer qu'une sortie ou une sortie numérique basée sur la régression, l'algorithme CART peut utiliser les deux pour prédire la probabilité d'un événement.