SEMINARIOS DE DOCTORADO 2005-2006


Doctorado en Ingeniería Informática y de Telecomunicación
Escuela Politécnica Superior, Universidad Autónoma de Madrid

Escuela Politécnica Superior                        


16 de diciembre de 2005, 12:00

Salón de Grados, Escuela Politécnica Superior, Universidad Autónoma de Madrid


Clasificación mediante conjuntos

Gonzalo Martínez Muñoz

Escuela Politécnica Superior - UAM

     

Resumen

En esta conferencias se describen cuatro nuevos métodos de generación de conjuntos de clasificadores y varias heurísticas para la mejora por ordenación y poda de conjuntos generados con bagging:
  1. Se presentan tres nuevos métodos de construcción de clasificadores que se caracterizan por usar sin modificaciones todos los datos de entrenamiento para construir cada uno de los clasificadores del conjunto. El algoritmo base, presentado en [gelfand91iterative], construye un árbol de decisión de forma iterativa a partir de un conjunto de datos que se divide en dos subconjuntos. En cada iteración, uno de los dos subconjuntos se utiliza para hacer crecer el árbol a partir del árbol de decisión obtenido en la iteración anterior. Una vez que se ha hecho crecer el árbol hasta su tamaño máximo éste se poda usando el otro subconjunto de datos. Los papeles de los subconjuntos se intercambian en cada iteración. Este proceso converge a un árbol final que es estable con respecto a la secuencia de pasos de crecimiento y poda. Para generar una variedad de clasificadores en el conjunto se crean tantas divisiones aleatorias de los ejemplos en dos subconjuntos como árboles se quieran construir. Este método da buenos resultados de clasificación en varias bases de datos estándar con un coste computacional menor que los conjuntos basados en CART.
  2. Se presenta un conjunto de clasificadores cuyos miembros son construidos a partir de alteraciones de las etiquetas de clase de un porcentaje de ejemplos elegidos aleatoriamente de entre los que componen el conjunto de entrenamiento. Este método obtiene una gran mejora del error de clasificación cuando se utiliza una alta probabilidad de modificación de etiquetas de clase y se generan conjuntos con un número elevado de clasificadores. Asimismo se muestra cómo los clasificadores generados siguiendo este procedimiento cometen errores en el conjunto de entrenamiento estadísticamente no correlacionados. La dependencia del error de entrenamiento de los conjuntos generados con el tamaño del conjunto es independiente del problema de clasificación analizado. En concreto, se muestra cómo para problemas de clasificación binarios, esta dependencia se puede analizar en términos de un proceso de Bernoulli. Asimismo, se muestran los resultados de experimentos realizados en 15 bases de datos estándar que demuestran las mejoras que se pueden obtener con este procedimiento.
  3. El orden en que los clasificadores se agregan en un conjunto de clasificadores puede ser una herramienta útil para la selección de subconjuntos de clasificadores más eficientes que el conjunto original completo. En general, el error de generalización de un conjunto de clasificadores ordenados aleatoriamente disminuye al incrementarse el número de clasificadores hasta alcanzar un valor constante. Si se modifica adecuadamente el orden de los clasificadores dentro del conjunto, el error de generalización puede alcanzar un mínimo cuyo valor esté por debajo del error asintótico del conjunto completo. En este capítulo se presentan varias heurísticas que utilizan las correlaciones entre clasificadores generados mediante bagging para identificar un orden apropiado que permita identificar un subconjunto de clasificadores con buenas capacidades de generalización. Una vez ordenado el conjunto éste se poda para seleccionar los K primeros clasificadores de acuerdo con un porcentaje de poda prefijado o mediante otras reglas de poda. De esta manera se pueden construir conjuntos de clasificadores de menor tamaño y con menor error de clasificación en conjuntos de test que el conjunto original completo.

presentación PDF

Gonzalo Martínez Muñoz

Gonzalo Martínez-Muñoz obtuvo el título de licenciado en Ciencias Físicas en 1995 y el Diploma de Estudios Avanzados en 2001 por la Universidad Autónoma de Madrid (UAM). Actualmente está trabajando en la finalización de su tesis sobre conjuntos de clasificadores dentro del departamento de Ingeniería Informática de la Escuela Politécnica Superior (UAM). Además, trabaja como profesor ayudante en este mismo departamento donde imparte la parte práctica de las asignaturas de “Programación Orientada a Objetos” y “Análisis de Algoritmos”. De 1996 a 2002, trabajó para Geosys SL, una PYME especializada en sistemas de información geográficos y teledetección, como analista y programador en el marco de proyectos de I+D. Sus principales campos de investigación incluyen: aprendizaje automático, reconocimiento de patrones, árboles de decisión, conjuntos de clasificadores y algoritmos genéticos.