Selección de métricas para aprendizaje automático

El experto en aprendizaje automático de Fayrix habla de las métricas de rendimiento que se utilizan comúnmente en la ciencia de datos para evaluar y realizar los modelos de aprendizaje automático

Selección de métricas para aprendizaje automático

El experto en aprendizaje automático de Fayrix habla de las métricas de rendimiento que se utilizan comúnmente en la ciencia de datos para evaluar y realizar los modelos de aprendizaje automático
Entendiendo la tarea
Según los requisitos previos, debemos comprender qué tipo de problemas estamos tratando de resolver. Aquí hay una lista de algunos problemas comunes en el aprendizaje automático:
  • Clasificación. Este algoritmo predirá el tipo de datos a partir de ciertas matrices de datos. Por ejemplo, se puede responder con sí / no / no estoy seguro.
  • Regresión. El algoritmo predirá algunos valores. Por ejemplo, el pronóstico del tiempo para mañana.
  • Clasificación por categorías. El modelo predirá el orden de los artículos. Por ejemplo, tenemos un grupo de estudiantes y necesitamos clasificarlos en función de su altura, desde el más alto hasta el más bajo.
En este caso resolvemos el problema de encontrar las métricas matemáticas que también solucionarán el problema inicial del negocio. A continuación enumeramos las métricas básicas para empezar.
CLASIFICACIÓN
métricas de rendimiento

MATRIZ DE CONFUSIÓN

Esta matriz se utiliza para evaluar la precisión de un clasificador y se presenta en la tabla a continuación.
Unos ejemplos
El falso positivo (FP) añade un correo electrónico de confianza a correos no deseados en un motor antispam.
El falso negativo (FN) en una evaluación médica puede mostrar incorrectamente la ausencia de enfermedad, cuando en realidad existe.

MÉTRICA DE EXACTITUD

Esta métrica es la base uno. Indica el número de elementos clasificados correctamente en comparación con el número total de artículos.
Tenga en cuenta que la métrica de exactitud tiene limitaciones: no funciona bien con las clases desequilibradas que pueden tener muchos elementos de la misma clase e incluir algunas otras clases.

MÉTRICA DE EXHAUSTIVIDAD/SENSIBILIDAD

La métrica de exhaustividad muestra la cantidad de verdaderos positivos que el modelo ha clasificado en función del número total de valores positivos.

MÉTRICA DE PRECISIÓN

Esta métrica representa el número de verdaderos positivos que son realmente positivos en comparación con el número total de valores positivos predichos.

PUNTUACIÓN F1

Esta métrica es la combinación de las métricas de precisión y exhaustividad y sirve de compromiso entre ellas. La mejor puntuación F1 es igual a 1 y la peor a 0.

REGRESIÓN
métricas de rendimiento

ERROR MEDIO ABSOLUTO (EMA)

Esta métrica de regresión es el valor medio de la diferencia absoluta entre el valor real y el valor predicho.

ERROR CUADRÁTICO MEDIO (ECM)

El error cuadrático medio (ECM) calcula el valor medio de la diferencia al cuadrado entre el valor real y el predicho para todos los puntos de datos. Todos los valores relacionados se elevan a la segunda potencia, por lo tanto, todos los valores negativos no se compensan con los positivos. Además, debido a las características de esta métrica, el impacto de los errores es mayor. Por ejemplo, si el error en nuestros cálculos iniciales es de 1/2/3, el ECM será igual a 1/4/9 respectivamente. Cuanto menor sea el ECM, más precisas serán nuestras predicciones. ECM = 1 es el punto óptimo en el que nuestro pronóstico es perfectamente preciso.

El ECM tiene algunas ventajas frente al EMA:
1. El ECM destaca grandes errores entre los pequeños.
2. El ECM es diferenciable, lo que ayuda a encontrar los valores mínimos y máximos utilizando los métodos matemáticos de manera más efectiva.


RAÍZ DEL ERROR CUADRÁTICO MEDIO (RECM)

El RECM es la raíz cuadrada del ECM. Es fácil de interpretar en comparación con el ECM y utiliza valores absolutos más pequeños, lo que es útil para los cálculos informáticos.
CLASIFICACIÓN POR CATEGORÍAS
métricas de rendimiento

MÉTRICA BÁSICA

Mejor predicción vs Humano:
El elemento más relevante se toma de una clasificación generada por algoritmo y luego se compara con una clasificación generada por los humanos. Esta métrica da como resultado un vector binario que muestra la diferencia en las estimaciones de un algoritmo y un humano.

COEFICIENTE TAU DE KENDALL

Mejor predicción vs Humano:
El coeficiente tau de Kendall muestra la correlación entre las dos listas de elementos clasificados según el número de pares concordantes y discordantes: en cada caso tenemos dos rangos (máquina y predicción humana). En primer lugar, los elementos clasificados se convierten en una matriz de comparación por pares con la correlación entre el rango actual y otros. Un par concordante significa que el rango de algoritmo se correlaciona con el rango humano. En el caso opuesto será un par discordante. Por lo tanto, este coeficiente se define de la siguiente manera:

Los valores de τ varían de 0 a 1. Cuanto más |τ| se aproxime a 1, tanto mejor será el ranking. Por ejemplo, cuando el valor de τ se aproxima a -1, la clasificación es igual de precisa, sin embargo, el orden de sus ítems debería ser inverso. Esto es bastante consistente con los indicadores de estimación que asignan el rango más alto a los mejores valores, mientras que durante el ranking humano los mejores reciben los rangos más bajos. τ = 0 indica la falta de correlación entre los rangos.

Referencias:
https://ufal.mff.cuni.cz/pbml/100/art-avramidis.pdf
https://machinelearningmastery.com/metrics-evaluate-machine-learning-algorithms-python/
https://www.quora.com/How-do-I-choose-error-metrics-for-machine-learning-algorithm
https://www.analyticsvidhya.com/blog/2016/02/7-important-model-evaluation-error-metrics/