Clasificación mediante conjuntos

 
 
AUTOR Gonzalo Martínez Muñoz
DIRECTOR Alberto Suárez González
FECHA 15 de febrero de 2006
CALIFICACION  Sobresaliente Cum Laude

 

RESUMEN:

  En esta tesis se proponen nuevos métodos de generación de conjuntos de clasificadores y varias heurísticas para la mejora por ordenación y poda de conjuntos generados con bagging. En concreto, las contribuciones realizadas en el trabajo son:
  1. En el presente capítulo se presentan tres nuevos métodos de construcción de conjuntos de clasificadores que se caracterizan por usar sin modificaciones todos los datos de entrenamiento para construir cada uno de los clasificadores del conjunto. El algoritmo base, presentado en Gelfand et al. (S.B. Gelfand, C.S. Ravishankar, y E.J. Delp. An iterative growing and pruning algorithm for classification tree design.
    IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(2):138--150, 1991) , construye un árbol de decisión de forma iterativa a partir de un conjunto de datos que se divide en dos subconjuntos. En cada iteración, uno de los dos subconjuntos se utiliza para hacer crecer el árbol a partir del árbol de decisión obtenido en la iteración anterior. Una vez que se ha hecho crecer el árbol hasta su tamaño máximo éste se poda usando el otro subconjunto de datos. Los papeles de los subconjuntos se intercambian en cada iteración. Este proceso converge a un árbol final que es estable con respecto a la secuencia de pasos de crecimiento y poda. Para generar una variedad de clasificadores en el conjunto se crean tantas divisiones aleatorias de los ejemplos en dos subconjuntos como árboles se quieran construir. Basándose en este procedimiento hemos propuesto tres nuevos métodos de construcción de conjuntos de clasificadores: conjunto IGP, boosting IGP y comités IGP. Estos métodos obtienen buenos resultados de clasificación en varias bases de datos estándar con un coste computacional menor que los conjuntos basados en CART.
  2. En este capítulo se presenta un conjunto de clasificadores cuyos miembros son construidos a partir de alteraciones de las etiquetas de clase de un porcentaje de ejemplos elegidos aleatoriamente de entre los que componen el conjunto de entrenamiento. Utilizando este método se pueden obtener grandes mejoras en el error de clasificación cuando se utiliza una alta probabilidad de modificación de etiquetas de clase y se generan conjuntos con un número elevado de clasificadores. Asimismo se muestra cómo los clasificadores generados siguiendo este procedimiento cometen errores en el conjunto de entrenamiento estadísticamente no correlacionados. La dependencia del error de entrenamiento de los conjuntos generados con el tamaño del conjunto es independiente del problema de clasificación analizado. En concreto, se muestra cómo para problemas de clasificación binarios, esta dependencia se puede analizar en términos de un proceso de Bernoulli. Finalmente, se muestran los resultados de experimentos realizados en 15 bases de datos estándar que demuestran las mejoras que se pueden obtener con este procedimiento.
  3. El orden en que los clasificadores se agregan en un conjunto puede ser una herramienta útil para la selección de subconjuntos de clasificadores más eficientes que el conjunto original completo. En general, el error de generalización de un conjunto de clasificadores ordenados aleatoriamente disminuye al incrementarse el número de clasificadores y tiende de manera asintótica a un valor constante. Si se modifica adecuadamente el orden de agregación de los clasificadores del conjunto, el error de generalización puede alcanzar un mínimo cuyo valor esté por debajo del error asintótico del conjunto completo. En este capítulo se presentan varias heurísticas que utilizan las correlaciones entre clasificadores generados mediante bagging para identificar un orden apropiado que permita seleccionar un subconjunto de clasificadores con buenas capacidades de generalización. Una vez ordenado el conjunto éste se poda para seleccionar los K primeros clasificadores de acuerdo con un porcentaje de poda prefijado o mediante otras reglas de poda. De esta manera se pueden construir conjuntos de clasificadores de menor tamaño y con menor error de clasificación en conjuntos de test que el conjunto original completo.

 

ABSTRACT:

  
  This thesis proposes four new methods for generating ensembles of classifiers and some pruning and ordering heuristics that improve the performance of ensembles generated with bagging algorithm:
  1. Three new methods to generate ensembles of classifiers that use all available data to construct every individual classifier are introduced. The base algorithm, presented in Gelfand et al. (S.B. Gelfand, C.S. Ravishankar, y E.J. Delp. An iterative growing and pruning algorithm for classification tree design.
    IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(2):138--150, 1991), builds a decision tree  in an iterative manner: The training data is divided into two subsets. In each iteration, one subset is used to grow the decision tree, starting from the decision tree produced by the previous iteration. This fully grown tree is then pruned by using the other subset. The roles of the data subsets are interchanged in every iteration. This process converges to a final tree which is stable with respect to the sequence of growing and pruning steps. To generate a variety of classifiers for the ensemble we randomly partition the training data into the subsets needed by the iterative tree construction algorithm. The method exhibits good performance in several standard datasets at a low computational cost.
  2. Ensembles that combine the decisions of classifiers generated by using perturbed versions of the training set where the classes of the training examples are randomly switched can produce a significant error reduction, provided that large numbers of units and high class switching rates are used. The individual classifiers generated by this procedure have statistically uncorrelated errors in the training set. Hence, the ensembles they form exhibit a similar dependence of the training error on ensemble size, independently of the classification problem. In particular, for binary classification problems, the classification performance of the ensemble on the training data can be analysed in terms of a Bernoulli process. Experiments on 15 UCI datasets demonstrate the improvements in classification accuracy that can be obtained using these class-switching ensembles.
  3. The order in which classifiers are aggregated in ensemble methods can be a useful tool for the identification of subsets of classifiers that, when combined, perform better than the whole ensemble. Ensembles with randomly ordered  classifiers usually exhibit a generalization error that decreases as the number of classifiers that are aggregated increases. If an appropriate order for aggregation is chosen, the generalization error reaches, at intermediate numbers of classifiers, a minimum, which lies below the asymptotic error of the ensemble. The second part of this thesis presents some heuristics that exploit the relations between the classifiers in a bagging ensemble to identify the appropriate ordering and then select the first K classifiers for aggregation according to a desired amount pruning or other pruning rules. The resulting subensembles  are smaller and improve the classification performance of the original ensemble.