Teoría de la Evidencia de Dempster-Shafer

Autor: Jaime Moreno Llorena

Curso Doctorado: Razonamiento Bajo Incertidumbre

ETSI, UAM

Mayo de 2002

Introducción

La Teoría de la Evidencia fue desarrollada por Dempster (1967) y posteriormente extendida por Shafer (1976), por lo que a veces se le hace referencia como la Teoría de Dempster-Shafer. Su enunciado estuvo motivado por las dificultades encontradas en la Teoría de la Probabilidad para representar la ignorancia, y manejar la necesidad de que las creencias asignadas a un evento y su negación sumen uno.

Esta teoría no precisa de un modelo de probabilidad completo para trabajar, en contra de los requerimientos de otros enfoques. Intenta sacar beneficio de la utilización de conjuntos de hipótesis en lugar de las hipótesis por separado, como se hace en otras aproximaciones. Procura facilitar la reasignación de probabilidad de creencia en las hipótesis cuando cambian las evidencias. Y pretende modelar la disminución del conjunto de hipótesis de trabajo a partir de la acumulación de evidencias.

Marco de Discernimiento

La Teoría de la Evidencia supone que hay un conjunto exhaustivo de hipótesis mutuamente excluyentes Q = {q1,q2... q3} , al que se llama Marco de Discernimiento, sobre el que se pretende razonar considerando el impacto de las evidencias que aparezcan.

A diferencia de otros enfoques, esta teoría sostiene que se debe considera el impacto de las evidencias no sólo sobre las hipótesis individuales originales, sino además sobre los grupos de estas, que son los subconjuntos de Q, a los que se considera también hipótesis. De esta forma, las nuevas hipótesis son las posibles disyunciones de las hipótesis originales.

El conjunto de partes de Q, representado por P(Q), esta compuesto por todos los subconjuntos de Q, incluido el conjunto vacío (Æ) y el propio Q. El conjunto P(Q), y no Q, es entonces el conjunto de hipótesis considerado.

Asignación Básica de Probabilidad

La Teoría de la Evidencia utiliza una función m, llamada Asignación Básica de Probabilidad, para asignar a cada elemento de P(Q) un valor indicativo de la creencia que, dada una evidencia, se deposita en él. La función m cumple las siguientes propiedades:

m(Æ) = 0

" A ç A Î P(Q):  0 <= m(A) <= 1

SA Î P(Q) m(A) = 1

Esto significa que la creencia, dada una evidencia, depositada en el conjunto vacío es siempre cero, que a todos los subconjuntos de Q se les asigna un valor de creencia real entre 0 y 1, y que la suma de todos los valores asignados tiene que ser uno.

La función m es parecida a la Función de Densidad de Probabilidad de la Teoría de la Probabilidad, pero en la que no se respeta la restricción bayesiana de que la suma de la creencia asignada a las hipótesis originales, subconjuntos unitarios de Q a los que se conoce como singletones, deba ser uno. Esto quiere decir que confirmar una determinada creencia para un sigleton  no implica confirmar la creencia restante para su negación. En el caso de que m asigne valores distintos de 0 solamente a los subconjuntos unitarios de Q, m se comportaría como una Función de Densidad de Probabilidad.

En esta teoría, cuando se tiene una nueva evidencia que apoya la creencia en una hipótesis, la creencia que resta hasta la unidad se asigna a Q, y no a la negación de la hipótesis, como se hubiera hecho en la Teoría de la Probabilidad. Esto significa que si una evidencia apoya parcialmente la creencia en una hipótesis, no tiene por que apoyar parcialmente la creencia en la negación de la hipótesis. Más bien, la creencia que no se asigna como resultado de una evidencia, se diluye entre las hipótesis mutuamente excluyentes.

Por otro lado, cuando el impacto de una evidencia apoya un subconjuntos de hipótesis de Q que no es unitario, es como si la evidencia confirmara la creencia en las hipótesis de Q que forman el subconjunto, pero sin concretar el impacto en la creencia de cada una de ellas.

En ocasiones, cuando el razonamiento sobre un dominio determinado sólo afecte a parte de P(Q) el conjunto de hipótesis se puede simplificar.

Medidas de Creencia

La Teoría de la Evidencia proporciona con la Asignación Básica de Probabilidad un sistema para representar el impacto de la evidencia sobre el  Marco de Discernimiento. Apoyadose en esta base facilita, además, una serie de instrumentos de medida para intentar establecer el grado de creencia que se puede depositar en cada hipótesis considerando las evidencias disponibles. Se trata de los grados de creencia, duda y verisimilitud, y el intervalo de creencia, que se representan en el siguiente esquema y se definen en los apartados sucesivos.

      Creencia      Intervalo Creencia        Duda

0 |---------------[--------------------]---------------| 1

   Grado Creencia-^                    ^-Grado Verisimilitud 

   ---------- Creencia ---------->

Grado de Creencia

El Grado de Creencia en un elemento A de P(Q) se escribe como Bel(A) y representa la mínima creencia en la hipótesis A, como resultado de una evidencia. El Grado de Creencia, dada una evidencia, en un elemento A de P(Q) es la suma de las asignaciones básicas de probabilidad hechas a todos los subconjuntos de A:

" A ç A Î P(Q):  Bel(A) = S X Í A  m(X)

Grado de Duda

El Grado de Duda, dada una evidencia,  en la negación de A, Bel(ØA),  es el Grado de Duda en A, se escribe como D(A) y representa la mínima creencia en la negación de la hipótesis A como resultado de una evidencia:

" A ç A Î P(Q):  D(A) = Bel(ØA)

Grado de Verisimilitud o Plausibilidad

El Grado de Verosimilitud  (o Plausibilidad) de un elemento A de P(Q) se escribe como Pl(A) y representa la máxima creencia en la hipótesis A, como resultado de una evidencia. El Grado de Verosimilitud, dada una evidencia,  de un elemento A de P(Q) es lo que le falta al Grado de Duda en A para la unidad. También puede verse como la suma de las asignaciones básicas de probabilidad hechas a todos los elementos X de P(Q) cuya intersección con A no es vacía:

" A ç A Î P(Q):  Pl(A) = 1 - D(A) = S X Ç A ¹ Æ m(X)

Se cumple que el Grado de Creencia siempre es menor que el Grado de Verisimilitud.

Intervalo de Creencia

El intervalo entre el Grado de Creencia y el de Verosimilitud de un elemento A de P(Q) es el  Intervalo de Creencia en A. Se escribe como un par [Bel(A), Pl(A)] y representa el nivel de incertidumbre sobre la hipótesis A, como resultado de una evidencia.

Según la Teoría de la Evidencia la diferencia entre Bel(A) y Pl(A) es una medida de esa incertidumbre. Cuando Bel(A) y Pl(A) son iguales se tiene absoluta certeza sobre el impacto de la evidencia sobre la hipótesis A. Cuando Bel(A) es 0 y Pl(A) es 1, la diferencia entre ambas medidas es máxima, no se sabe nada del efecto sobre A de la evidencia. Y cuando los valores de Bel(A) y Pl(A) son otros, cuanto mayor es la diferencia entre ambos, mayor es la incertidumbre acerca del impacto de la evidencia sobre la hipótesis A.

El valor de la medida que el Intervalo de Creencia proporciona es muy cuestionado en el ámbito de los partidario de la Inferencia Bayesiana. En su planteamiento de los problemas, debido a las restricciones que se imponen, siempre se verifica que Bel(A) y Pl(A) son iguales, al ser Bel(A) + Bel(ØA) = 1, y se tiene plena certeza en el impacto de las evidencias.

Impacto de Evidencias Sucesivas: Regla de Combinación de Dempster

La Teoría de la Evidencia propone un proceso iterativo para evaluar el impacto sobre las hipótesis de sucesivas evidencias. En este proceso, la creencia en las hipótesis adquirida en una iteración (m1), como resultado de considerar el impacto de una evidencia, se combina con la adquirida en la iteración siguiente (m2), al evaluar el impacto de una nueva evidencia. Dicha combinación (m12= m1 Å m2) se realiza mediante la Regla de Combinación de Dempster:

m12(Æ) = 0

m12(Q) = 1

" A ç A Î P(Q) Ù A ¹ Æ Ù A ¹ Q:

m12(A) = S B, C Î P(Q) Ù BÇC = A  m1(B) *  m2(C) / S B, C Î P(Q) Ù  BÇC ¹ Æ  m1(B) *  m2(C)

o lo que es equivalente, para el último caso:

m12(A) = (1/ 1-k) * S B, C Î P(Q) Ù BÇC = A  m1(B) *  m2(C)

siendo k = S B, C Î P(Q) Ù  BÇC = Æ  m1(B) *  m2(C)

donde la constante k provoca un efecto de normalización por el que se elimina la creencia en el conjunto vacío repartiéndola entre todos los demás elementos de P(Q) en proporción a la creencia depositada en ellos.

Se demuestra que la función así obtenida m12 es una Asignación Básica de Probabilidad como m1 y  m2. La propiedad conmutativa de la multiplicación garantiza que esta regla genera los mismos valores de forma independiente del orden en que se combinen las funciones y, por tanto, del orden en que se consideren las evidencias.

Críticas

Se hacen diversas críticas a la Teoría de la Evidencia: