Modelado predictivo - Predictive modelling

El modelado predictivo utiliza estadísticas para predecir resultados. La mayoría de las veces, el evento que uno desea predecir está en el futuro, pero el modelado predictivo se puede aplicar a cualquier tipo de evento desconocido, independientemente de cuándo ocurrió. Por ejemplo, los modelos predictivos se utilizan a menudo para detectar delitos e identificar a los sospechosos, una vez que se ha cometido el delito.

En muchos casos, el modelo se elige sobre la base de la teoría de detección para intentar adivinar la probabilidad de un resultado dada una cantidad determinada de datos de entrada, por ejemplo, dado un correo electrónico que determina la probabilidad de que sea spam .

Los modelos pueden usar uno o más clasificadores para tratar de determinar la probabilidad de que un conjunto de datos pertenezca a otro conjunto. Por ejemplo, se puede utilizar un modelo para determinar si un correo electrónico es spam o "ham" (no spam).

Dependiendo de los límites de definición, el modelado predictivo es sinónimo, o se superpone en gran medida, al campo del aprendizaje automático , como se le conoce más comúnmente en contextos académicos o de investigación y desarrollo. Cuando se implementa comercialmente, el modelado predictivo a menudo se denomina análisis predictivo .

El modelado predictivo a menudo se contrasta con el modelado / análisis causal . En el primero, uno puede estar completamente satisfecho con hacer uso de indicadores o sustitutos del resultado de interés. En este último, se busca determinar las verdaderas relaciones de causa y efecto. Esta distinción ha dado lugar a una creciente literatura en los campos de los métodos de investigación y la estadística y a la afirmación común de que " correlación no implica causalidad ".

Modelos

Casi cualquier modelo estadístico se puede utilizar con fines de predicción. En términos generales, hay dos clases de modelos predictivos: paramétricos y no paramétricos . Una tercera clase, modelos semiparamétricos , incluye características de ambos. Los modelos paramétricos hacen "supuestos específicos con respecto a uno o más de los parámetros de población que caracterizan las distribuciones subyacentes". Los modelos no paramétricos "normalmente implican menos supuestos de estructura y forma de distribución [que los modelos paramétricos] pero normalmente contienen supuestos sólidos sobre las independientes".

Aplicaciones

Modelado de mejora

El modelado de elevación es una técnica para modelar el cambio en la probabilidad causado por una acción. Normalmente, se trata de una acción de marketing, como una oferta para comprar un producto, utilizar más un producto o volver a firmar un contrato. Por ejemplo, en una campaña de retención, desea predecir el cambio en la probabilidad de que un cliente siga siendo un cliente si se lo contacta. Un modelo del cambio de probabilidad permite que la campaña de retención se dirija a aquellos clientes en los que el cambio de probabilidad será beneficioso. Esto permite que el programa de retención para evitar desencadenar innecesaria la rotación o el desgaste de los clientes sin perder dinero en contacto con las personas que actuarían de todos modos.

Arqueología

El modelado predictivo en arqueología se basa en el trabajo de mediados de los años cincuenta de Gordon Willey en el Valle Virú de Perú. Se realizaron estudios completos e intensivos, luego se determinó la covariabilidad entre los restos culturales y las características naturales como la pendiente y la vegetación. El desarrollo de métodos cuantitativos y una mayor disponibilidad de datos aplicables llevaron al crecimiento de la disciplina en la década de 1960 y, a fines de la de 1980, los principales administradores de tierras de todo el mundo habían logrado un progreso sustancial.

Generalmente, el modelado predictivo en arqueología consiste en establecer relaciones causales o covariables estadísticamente válidas entre proxies naturales tales como tipos de suelo, elevación, pendiente, vegetación, proximidad al agua, geología, geomorfología, etc., y la presencia de características arqueológicas. A través del análisis de estos atributos cuantificables de la tierra que se ha sometido a un estudio arqueológico, a veces se puede anticipar la "sensibilidad arqueológica" de las áreas no encuestadas con base en los indicadores naturales en esas áreas. Grandes administradores de tierras en los Estados Unidos, como la Oficina de Administración de Tierras (BLM), el Departamento de Defensa (DOD) y numerosas agencias de carreteras y parques, han empleado con éxito esta estrategia. Mediante el uso de modelos predictivos en sus planes de gestión de recursos culturales, son capaces de tomar decisiones más informadas al planificar actividades que tienen el potencial de requerir alteraciones del suelo y, posteriormente, afectar los sitios arqueológicos.

Gestión de relaciones con el cliente

El modelado predictivo se utiliza ampliamente en la gestión analítica de las relaciones con los clientes y la minería de datos para producir modelos a nivel de cliente que describen la probabilidad de que un cliente realice una acción en particular. Las acciones suelen estar relacionadas con las ventas, el marketing y la retención de clientes.

Por ejemplo, una gran organización de consumidores, como un operador de telecomunicaciones móviles, tendrá un conjunto de modelos predictivos para la venta cruzada de productos, la venta profunda de productos (o upselling ) y el abandono . También es ahora más común para una organización como para tener un modelo de savability utilizando un modelo de elevación . Esto predice la probabilidad de que un cliente pueda salvarse al final de un período de contrato (el cambio en la probabilidad de abandono) en contraposición al modelo estándar de predicción de abandono.

Seguro de auto

El modelo predictivo se utiliza en el seguro de vehículos para asignar el riesgo de incidentes a los titulares de pólizas a partir de la información obtenida de los titulares de pólizas. Esto se emplea ampliamente en soluciones de seguros basadas en el uso donde los modelos predictivos utilizan datos basados ​​en telemetría para construir un modelo de riesgo predictivo para la probabilidad de reclamaciones. Los modelos predictivos de seguros de automóviles de caja negra utilizan únicamente la entrada del sensor de GPS o acelerómetro . Algunos modelos incluyen una amplia gama de datos predictivos más allá de la telemetría básica, incluido el comportamiento de conducción avanzado, registros de accidentes independientes, historial de carreteras y perfiles de usuario para proporcionar modelos de riesgo mejorados.

Cuidado de la salud

En 2009, Parkland Health & Hospital System comenzó a analizar registros médicos electrónicos con el fin de utilizar modelos predictivos para ayudar a identificar a los pacientes con alto riesgo de readmisión. Inicialmente, el hospital se centró en pacientes con insuficiencia cardíaca congestiva, pero el programa se ha ampliado para incluir a pacientes con diabetes, infarto agudo de miocardio y neumonía.

En 2018, Banerjee et al. propuso un modelo de aprendizaje profundo — Estimaciones pronósticas probabilísticas de supervivencia en pacientes con cáncer metastásico (PPES-Met) —para estimar la esperanza de vida a corto plazo (> 3 meses) de los pacientes mediante el análisis de notas clínicas de texto libre en la historia clínica electrónica, mientras manteniendo la secuencia temporal de la visita. El modelo se entrenó en un gran conjunto de datos (10 293 pacientes) y se validó en un conjunto de datos separado (1818 pacientes). Logró un área bajo la curva ROC ( Receiver Operating Characteristic ) de 0,89. Para proporcionar capacidad de explicación, desarrollaron una herramienta gráfica interactiva que puede mejorar la comprensión del médico sobre la base de las predicciones del modelo. La alta precisión y capacidad de explicación del modelo PPES-Met puede permitir que el modelo se utilice como una herramienta de apoyo a la toma de decisiones para personalizar el tratamiento del cáncer metastásico y proporcionar una valiosa ayuda a los médicos.

Comercio algorítmico

El modelado predictivo en el comercio es un proceso de modelado en el que la probabilidad de un resultado se predice utilizando un conjunto de variables predictoras . Se pueden construir modelos predictivos para diferentes activos como acciones, futuros, divisas, materias primas, etc. Las empresas comerciales todavía utilizan ampliamente el modelado predictivo para diseñar estrategias y comerciar. Utiliza software matemáticamente avanzado para evaluar indicadores de precio, volumen, interés abierto y otros datos históricos, para descubrir patrones repetibles.

Sistemas de seguimiento de clientes potenciales

El modelado predictivo les da a los generadores de prospectos una ventaja al pronosticar los resultados basados ​​en datos para cada campaña potencial. Este método ahorra tiempo y expone posibles puntos ciegos para ayudar al cliente a tomar decisiones más inteligentes.

Fallos notables del modelado predictivo

Aunque no es ampliamente discutido por la comunidad dominante de modelos predictivos, el modelo predictivo es una metodología que se ha utilizado ampliamente en la industria financiera en el pasado y algunos de los principales fracasos contribuyeron a la crisis financiera de 2007-2008 . Estos fallos ejemplifican el peligro de depender exclusivamente de modelos cuya naturaleza es esencialmente retrospectiva. Los siguientes ejemplos no son de ninguna manera una lista completa:

1) Calificación de bonos. S&P , Moody's y Fitch cuantifican la probabilidad de incumplimiento de los bonos con variables discretas denominadas calificación. La calificación puede tomar valores discretos desde AAA hasta D. La calificación es un predictor del riesgo de incumplimiento basado en una variedad de variables asociadas con el prestatario y datos macroeconómicos históricos . Las agencias de calificación no cumplieron con sus calificaciones en el mercado de obligaciones de deuda garantizada respaldadas por hipotecas ( CDO ) de US $ 600 mil millones . Casi todo el sector AAA (y el sector super-AAA, una nueva calificación que las agencias de calificación proporcionaron para representar una inversión súper segura) del mercado de CDO incumplieron o degradaron severamente durante 2008, muchos de los cuales obtuvieron sus calificaciones menos de un año antes.

2) Hasta el momento, no se considera que ningún modelo estadístico que intente predecir los precios del mercado de valores basándose en datos históricos haga predicciones correctas de forma coherente a largo plazo. Un fracaso particularmente memorable es el de Long Term Capital Management , un fondo que contrató a analistas altamente calificados, incluido un ganador del Premio Nobel de Ciencias Económicas , para desarrollar un modelo estadístico sofisticado que predijo los diferenciales de precios entre diferentes valores. Los modelos produjeron ganancias impresionantes hasta una gran debacle que hizo que el entonces presidente de la Reserva Federal , Alan Greenspan, interviniera para negociar un plan de rescate por parte de los corredores de bolsa de Wall Street para evitar un colapso del mercado de bonos.

Posibles limitaciones fundamentales de los modelos predictivos basados ​​en el ajuste de datos

1) La historia no siempre puede predecir con precisión el futuro. El uso de relaciones derivadas de datos históricos para predecir el futuro supone implícitamente que existen ciertas condiciones o constantes duraderas en un sistema complejo. Esto casi siempre conduce a cierta imprecisión cuando el sistema involucra a personas.

2) La cuestión de las incógnitas desconocidas. En toda la recopilación de datos, el recopilador primero define el conjunto de variables para las que se recopilan los datos. Sin embargo, no importa cuán extensamente considere el recolector su selección de las variables, siempre existe la posibilidad de nuevas variables que no han sido consideradas o ni siquiera definidas, pero que son críticas para el resultado.

3) Derrota adversaria de un algoritmo. Una vez que un algoritmo se convierte en un estándar de medición aceptado, las personas que comprenden el algoritmo pueden aprovecharlo y tienen el incentivo de engañar o manipular el resultado. Esto es lo que sucedió con la calificación CDO descrita anteriormente. Los distribuidores de CDO cumplieron activamente con los aportes de las agencias de calificación para alcanzar un AAA o super-AAA en el CDO que estaban emitiendo, manipulando hábilmente variables que eran "desconocidas" para los modelos "sofisticados" de las agencias de calificación.

Ver también

Referencias

  1. ^ Geisser, Seymour (1993). Inferencia predictiva: una introducción . Chapman y Hall . pag. . ISBN 978-0-412-03471-8.
  2. ^ Finlay, Steven (2014). Análisis predictivo, minería de datos y big data. Mitos, conceptos erróneos y métodos (1ª ed.). Palgrave Macmillan . pag. 237. ISBN 978-1137379276.
  3. ^ Sheskin, David J. (27 de abril de 2011). Manual de procedimientos estadísticos paramétricos y no paramétricos . Prensa CRC . pag. 109. ISBN 978-1439858011.
  4. ^ Cox, DR (2006). Principios de inferencia estadística . Prensa de la Universidad de Cambridge . pag. 2.
  5. ^ Willey, Gordon R. (1953), "Patrones de asentamientos prehistóricos en el valle de Virú, Perú", Boletín 155. Oficina de etnología estadounidense
  6. ^ Heidelberg, Kurt, et al. "Una evaluación del programa de muestreo arqueológico en el campo de pruebas y entrenamiento de Nevada", Informe técnico del SRI 02-16, 2002
  7. ^ Jeffrey H. Altschul, Lynne Sebastian y Kurt Heidelberg, "Modelado predictivo en el ejército: objetivos similares, caminos divergentes", Preservation Research Series 1, SRI Foundation, 2004
  8. ^ "Hospital utiliza análisis de datos y modelado predictivo para identificar y asignar recursos escasos a pacientes de alto riesgo, lo que lleva a menos readmisiones" . Agencia de Investigación y Calidad Sanitaria . 2014-01-29 . Consultado el 19 de marzo de 2019 .
  9. ^ Banerjee, Imon; et al. (3 de julio de 2018). "Estimaciones de pronóstico probabilístico de supervivencia en pacientes con cáncer metastásico (PPES-Met) utilizando narrativas clínicas de texto libre" . Informes científicos . 8 (10037 (2018)): 10037. Código Bibliográfico : 2018NatSR ... 810037B . doi : 10.1038 / s41598-018-27946-5 . PMC  6030075 . PMID  29968730 .
  10. ^ "Sistemas comerciales basados ​​en modelos predictivos, parte 1 - Éxito del comerciante del sistema" . Éxito del comerciante del sistema . 2013-07-22 . Consultado el 25 de noviembre de 2016 .
  11. ^ "Modelado predictivo para seguimiento de llamadas" . Phonexa . 2019-08-22 . Consultado el 25 de febrero de 2021 .

Otras lecturas