Algunas Medidas de Asociación para variables nominales. El  coeficiente lambda de Goodman y Kruskal (I).
Volver a página previa Ir a página siguiente Volver al índice de contenidos

 

El coeficiente lambda de Goodman y Kruskal. Los coeficientes de contingencia de Pearson y Cramer, C y V,  expuestos anteriormente, son medidas basadas en la distribución χ2 e intentan de alguna manera medir la "falta de independencia" entre dos variables cualitativas. Sin embargo, Goodman y Kruskal, entre otros, introducen medidas de asociación que puede ser interpretadas  en términos de probabilidades de error de clasificación: éstas miden la "relativa utilidad de una variable para mejorar la capacidad de predecir la clasificación de los individuos de una población, con respecto a una segunda variable".

Una de estas medidas es conocida como coeficiente λ de Goodman y Kruskal , y  parte de los mismos supuestos utilizados en páginas previas: 

  • A , variable fila (criterio de clasificación) con r niveles, categorías o clases: A1,A2,...,Ar .

  • B , variable columna (criterio de clasificación) con s niveles, categorías o clases: B1,B2,...,Bs .

  • pij=p(Ai ∩ Bj) , probabilidad de pertenecer a la categoría Ai de A y Bj de B. Estas probabilidades o, en su defecto, estimaciones obtenidas a partir de los datos de una muestra de tamaño n, pueden usarse para "predecir la categoría de la variable A a la cual pertenece un individuo seleccionado al azar de la población".

Esta predicción se realizará de dos maneras: (1) sin información acerca de la clase del criterio B a la cual pertenece; y (2) conociendo previamente la categoría de criterio B a la que pertenece al individuo.

  • Caso (1). Regla de asignación o predicción: Se le asigna la categoría Am para la cual pm+ = max {p1+,p2+,...,pr+} , es decir, la categoría de mayor probabilidad del criterio de clasificación A ( se recuerda que pi+=p(Ai)). Es obvio, que la probabilidad de ser asignado correctamente es pm+  y de que lo sea incorrectamente será

  • Caso (2). Supóngase que se sabe que el individuo pertenece a la categoría o clase Bj del criterio o variable B, entonces la regla de asignación o predicción  será: Se le asigna la categoría Am para la cual pmj = max {p1j,p2j,...,prj} , es decir, la categoría Am(j) del criterio A  más probable con Bj . (En este caso, la probabilidad de que un individuo, seleccionado al azar, sea asignado correctamente, sabiendo que pertenece a la clase Bj , será p(Am(j)|Bj)=pmj/m+j). Ahora bien, si este planteamiento se aplica a un individuo seleccionado al azar, sin ningún condicionamiento a priori sobre la categoría de B a la cual pertenece, será asignado correctamente si tiene lugar una de las siguientes intersecciones de sucesos: 

        Por tanto, la probabilidad de que sea asignado correctamente será 

       y de que lo sea incorrectamente 

De este modo , la diferencia entre el error de predición en el caso (1) y el error en el caso (2), establece la reducción del error al predecir la categoría A , si se conoce la categoría B :

La reducción, en términos de proporción, define el coeficiente lambda de Goodman-Kruskal con variable fila dependiente:

De forma similar, si deseamos usar el conocimiento de A para mejorar la predicción de la clase B, se obtendría el coeficiente lambda de Goodman-Kruskal con variable columna dependiente:

Ambos coeficientes miden "el porcentaje de error que se reduce al predecir la categoría de unos de los criterios, al conocer la categoría a la cual pertenece el individuo según el otro criterio".


 
Volver a página previa Ir a página siguiente Volver al índice de contenidos
    
Dpto. de Matemática Aplicada (Biomatemática). Facultad de Biología. UCM.