Sobreentrenamiento en Machine Learning

La idea fundamental de Machine Learning es encontrar patrones que podamos generalizar para poder aplicar esta generalización sobre los casos aún no observados y realizar predicciones. Pero también ocurre que durante el entrenamiento, el sistema solo descubra casualidades y esto se le conoce como sobreentrenamiento.

Todos los modelos de Machine Learning tienen tendencia al sobreentrenamiento; es por esto que debemos aprender a convivir con el mismo y tratar de tomar medidas preventivas para reducirlo lo más posible. Las dos principales estrategias para evitar el sobreentrenamiento son: la retención de datos y la validación cruzada.
Para la retención de datos, el objetivo es dividir nuestro conjunto de datos en uno o varios conjuntos de entrenamiento y otros conjuntos de evaluación. Es decir, que no le vamos a pasar todos nuestros datos al algoritmo durante el entrenamiento, sino que vamos a retener una parte de los datos de entrenamiento para realizar una evaluación de la efectividad del modelo.

Para la validación cruzada se requiere realizar un análisis estadístico para obtener otras medidas del rendimiento estimado, como la media y la varianza, y así poder entender cómo se espera que el rendimiento varíe a través de los distintos conjuntos de datos.

Nota: En la práctica el más común es el uso de la retención de datos.

Taller de Desarrollo con Javascript

Regístrate en nuestra plataforma en linea para tener acceso completo y gratuito del taller

Registrarme

Taller de desarrollo de Pokedex con Android Studio

Regístrate en nuestra plataforma en linea para tener acceso completo y gratuito del taller

Registrarme