Análisis de límites de probabilidad - Probability bounds analysis

El análisis de límites de probabilidad ( PBA ) es una colección de métodos de propagación de la incertidumbre para realizar cálculos cualitativos y cuantitativos frente a incertidumbres de diversos tipos. Se utiliza para proyectar información parcial sobre variables aleatorias y otras cantidades a través de expresiones matemáticas. Por ejemplo, calcula límites seguros en la distribución de una suma, producto o función más compleja, dados solo límites seguros en las distribuciones de las entradas. Dichos límites se denominan cajas de probabilidad y restringen las distribuciones de probabilidad acumulativa (en lugar de las densidades o funciones de masa ).

Este enfoque delimitador permite a los analistas realizar cálculos sin requerir suposiciones demasiado precisas sobre los valores de los parámetros, la dependencia entre las variables o incluso la forma de la distribución. El análisis de límites de probabilidad es esencialmente una combinación de los métodos del análisis de intervalo estándar y la teoría clásica de la probabilidad . El análisis de límites de probabilidad da la misma respuesta que el análisis de intervalo cuando solo se dispone de información de rango. También da las mismas respuestas que la simulación Monte Carlo cuando la información es lo suficientemente abundante como para especificar con precisión las distribuciones de entrada y sus dependencias. Por tanto, es una generalización tanto del análisis de intervalos como de la teoría de la probabilidad.

Los diversos métodos que comprenden el análisis de límites de probabilidad proporcionan algoritmos para evaluar expresiones matemáticas cuando existe incertidumbre sobre los valores de entrada, sus dependencias o incluso la forma de expresión matemática en sí. Los cálculos arrojan resultados que están garantizados para incluir todas las posibles distribuciones de la variable de salida si los p-boxes de entrada también incluyan sus respectivas distribuciones. En algunos casos, un p-box calculado también será lo mejor posible en el sentido de que los límites no podrían ser más estrictos sin excluir algunas de las posibles distribuciones.

Los recuadros P suelen ser simplemente límites de posibles distribuciones. Los límites a menudo también encierran distribuciones que no son posibles en sí mismas. Por ejemplo, el conjunto de distribuciones de probabilidad que podría resultar de sumar valores aleatorios sin el supuesto de independencia de dos distribuciones (precisas) es generalmente un subconjunto adecuado de todas las distribuciones encerradas por el cuadro p calculado para la suma. Es decir, hay distribuciones dentro de la caja p de salida que no podrían surgir bajo ninguna dependencia entre las dos distribuciones de entrada. Sin embargo, el p-box de salida siempre contendrá todas las distribuciones que sean posibles, siempre que los p-boxes de entrada estén seguros de incluir sus respectivas distribuciones subyacentes. Esta propiedad a menudo es suficiente para su uso en el análisis de riesgos y otros campos que requieren cálculos en condiciones de incertidumbre.

Historia de la probabilidad límite

La idea de probabilidad límite tiene una tradición muy larga a lo largo de la historia de la teoría de la probabilidad. De hecho, en 1854 George Boole utilizó la noción de límites de intervalo sobre la probabilidad en sus Las leyes del pensamiento . También data de la segunda mitad del siglo XIX, la desigualdad atribuida a Chebyshev describió límites en una distribución cuando solo se conocen la media y la varianza de la variable, y la desigualdad relacionada atribuida a Markov encontró límites en una variable positiva cuando solo la media es conocida. Kyburg revisó la historia de las probabilidades de intervalo y rastreó el desarrollo de las ideas críticas a lo largo del siglo XX, incluida la importante noción de probabilidades incomparables favorecida por Keynes .

De particular interés es la derivación de Fréchet en la década de 1930 de límites en cálculos que involucran probabilidades totales sin supuestos de dependencia. Las probabilidades limitadas han continuado hasta el día de hoy (por ejemplo, la teoría de la probabilidad imprecisa de Walley ).

Los métodos de análisis de límites de probabilidad que podrían usarse de forma rutinaria en las evaluaciones de riesgo se desarrollaron en la década de 1980. Hailperin describió un esquema computacional para delimitar cálculos lógicos extendiendo las ideas de Boole. Yager describió los procedimientos elementales mediante los cuales se pueden calcular los límites de las convoluciones bajo un supuesto de independencia. Aproximadamente al mismo tiempo, Makarov, e independientemente, Rüschendorf resolvió el problema, originalmente planteado por Kolmogorov , de cómo encontrar los límites superior e inferior para la distribución de probabilidad de una suma de variables aleatorias cuyas distribuciones marginales, pero no su distribución conjunta, son conocidos. Frank y col. generalizó el resultado de Makarov y lo expresó en términos de cópulas . Desde entonces, las fórmulas y algoritmos para sumas se han generalizado y extendido a diferencias, productos, cocientes y otras funciones binarias y unarias bajo varios supuestos de dependencia.

Expresiones aritméticas

Las expresiones aritméticas que involucran operaciones como sumas, restas, multiplicaciones, divisiones, mínimos, máximos, potencias, exponenciales, logaritmos, raíces cuadradas, valores absolutos, etc., se usan comúnmente en análisis de riesgo y modelos de incertidumbre. La convolución es la operación de encontrar la distribución de probabilidad de una suma de variables aleatorias independientes especificadas por distribuciones de probabilidad. Podemos extender el término para encontrar distribuciones de otras funciones matemáticas (productos, diferencias, cocientes y funciones más complejas) y otras suposiciones sobre las dependencias intervariables. Existen algoritmos convenientes para calcular estas convoluciones generalizadas bajo una variedad de suposiciones sobre las dependencias entre las entradas.

Detalles matemáticos

Vamos a denotar el espacio de las funciones de distribución de los números reales es decir, ${\ Displaystyle \ mathbb {D}}$ ${\ Displaystyle \ mathbb {R},}$

{\ Displaystyle \ mathbb {D} = \ {D | D: \ mathbb {R} \ to [0,1], D (x) \ leq D (y) {\ text {para todos}} x <y \ }.}

Una p-box es un quíntuple

{\ Displaystyle \ left \ {{\ overline {F}}, {\ underline {F}}, m, v, \ mathbf {F} \ right \},}

donde son intervalos reales, y Este quintuple denota el conjunto de funciones de distribución tales que: ${\ Displaystyle {\ overline {F}}, {\ underline {F}} \ in \ mathbb {D}, m, v}$ ${\ Displaystyle \ mathbf {F} \ subconjunto \ mathbb {D}.}$ ${\ Displaystyle F \ in \ mathbf {F} \ subconjunto \ mathbb {D}}$

{\ Displaystyle {\ begin {alineado} \ forall x \ in \ mathbb {R}: \ qquad & {\ overline {F}} (x) \ leq F (x) \ leq {\ underline {F}} (x ) \\ [6pt] & \ int _ {\ mathbb {R}} xdF (x) \ in m && {\ text {condición de expectativa}} \\ & \ int _ {\ mathbb {R}} x ^ {2} dF (x) - \ left (\ int _ {\ mathbb {R}} xdF (x) \ right) ^ {2} \ in v && {\ text {condición de varianza}} \ end {alineado}}}

Si una función satisface todas las condiciones anteriores, se dice que está dentro de la caja p. En algunos casos, puede que no haya información sobre los momentos o la familia de distribución que no sea la codificada en las dos funciones de distribución que constituyen los bordes de la caja p. Entonces, el quíntuplo que representa la caja p se puede denotar de manera más compacta como [ B ₁ , B ₂ ]. Esta notación recuerda a la de los intervalos en la línea real, excepto que los puntos finales son distribuciones en lugar de puntos. ${\ Displaystyle \ {B_ {1}, B_ {2}, [- \ infty, \ infty], [0, \ infty], \ mathbb {D} \}}$

La notación denota el hecho de que es una variable aleatoria gobernada por la función de distribución F , es decir, ${\ Displaystyle X \ sim F}$ ${\ Displaystyle X \ in \ mathbb {R}}$

{\ Displaystyle {\ begin {cases} F: \ mathbb {R} \ to [0,1] \\ x \ mapsto \ Pr (X \ leq x) \ end {cases}}}

Generalicemos la notación de tilde para usar con p-boxes. Escribiremos X ~ B en el sentido de que X es una variable aleatoria cuya función de distribución es desconocida, excepto que es el interior B . Por tanto, X ~ F ∈ B puede contraerse con X ~ B sin mencionar explícitamente la función de distribución.

Si X e Y son variables aleatorias independientes con distribuciones F y G respectivamente, entonces X + Y = Z ~ H dado por

{\ Displaystyle H (z) = \ int _ {z = x + y} F (x) G (y) dz = \ int _ {\ mathbb {R}} F ​​(x) G (zx) dx = F * GRAMO.}

Esta operación se denomina una convolución en F y G . La operación análoga en p-boxes es sencilla para sumas. Suponer

{\ Displaystyle X \ sim A = [A_ {1}, A_ {2}], \ quad {\ text {y}} \ quad Y \ sim B = [B_ {1}, B_ {2}].}

Si X e Y son estocásticamente independientes, entonces la distribución de Z = X + Y está dentro de la caja p

{\ Displaystyle \ left [A_ {1} * B_ {1}, A_ {2} * B_ {2} \ right].}

Encontrar límites en la distribución de sumas Z = X + Y sin hacer ninguna suposición sobre la dependencia entre X e Y es en realidad más fácil que el problema asumiendo independencia. Makarov demostró que

{\ Displaystyle Z \ sim \ left [\ sup _ {z = x + y} \ max (F (x) + G (y) -1,0), \ inf _ {z = x + y} \ min ( F (x) + G (y), 1) \ derecha]}

Estos límites están implícitos en los límites de la cópula de Fréchet-Hoeffding . El problema también se puede resolver utilizando los métodos de programación matemática .

La convolución bajo el supuesto intermedio que X y Y tienen dependencia positiva es igualmente fácil de calcular, ya que es la convolución bajo los supuestos extremos de positiva perfecta o perfecta negativo dependencia entre X y Y .

Las convoluciones generalizadas para otras operaciones como resta, multiplicación, división, etc., se pueden derivar usando transformaciones. Por ejemplo, la resta de p-box A - B se puede definir como A + (- B ), donde el negativo de un p-box B = [ B ₁ , B ₂ ] es [ B ₂ (- x ), B ₁ ( - x )].

Expresiones lógicas

Las expresiones lógicas o booleanas que involucran conjunciones ( operaciones AND ), disyunciones ( operaciones OR ), disyunciones exclusivas, equivalencias, condicionales, etc. surgen en el análisis de árboles de fallas y árboles de eventos comunes en las evaluaciones de riesgo. Si las probabilidades de eventos se caracterizan por intervalos, como sugieren Boole y Keynes, entre otros, estas operaciones binarias son sencillas de evaluar. Por ejemplo, si la probabilidad de un evento A está en el intervalo P (A) = a = [0.2, 0.25], y la probabilidad del evento B está en P (B) = b = [0.1, 0.3], entonces la probabilidad de la conjunción está seguramente en el intervalo

P (A y B) = a × b

= [0.2, 0.25] × [0.1, 0.3]

= [0,2 × 0,1, 0,25 × 0,3]

= [0.02, 0.075]

siempre que se pueda suponer que A y B son eventos independientes. Si no son independientes, aún podemos unir la conjunción usando la desigualdad de Fréchet clásica . En este caso, podemos inferir al menos que la probabilidad del evento conjunto A y B está seguramente dentro del intervalo

P (A y B) = env (max (0, a + b −1), min ( a , b ))

= env (max (0, [0.2, 0.25] + [0.1, 0.3] −1), min ([0.2, 0.25], [0.1, 0.3]))

= env ([max (0, 0.2 + 0.1–1), max (0, 0.25 + 0.3–1)], [min (0.2,0.1), min (0.25, 0.3)])

= env ([0,0], [0,1, 0,25])

= [0, 0,25]

donde env ([ x ₁ , x ₂ ], [ y ₁ , y ₂ ]) es [min ( x ₁ , y ₁ ), max ( x ₂ , y ₂ )]. Asimismo, la probabilidad de la disyunción seguramente está en el intervalo

P (UNA v B) = una + segundo - una × segundo = 1 - (1 - una ) × (1 - segundo )

= 1 - (1 - [0.2, 0.25]) × (1 - [0.1, 0.3])

= 1 - [0,75, 0,8] × [0,7, 0,9]

= 1 - [0.525, 0.72]

= [0.28, 0.475]

si A y B son eventos independientes. Si no son independientes, la desigualdad de Fréchet limita la disyunción

P (A v B) = env (max ( a , b ), min (1, a + b ))

= env (máx ([0.2, 0.25], [0.1, 0.3]), min (1, [0.2, 0.25] + [0.1, 0.3]))

= env ([0.2, 0.3], [0.3, 0.55])

= [0,2, 0,55].

También es posible calcular límites de intervalo en la conjunción o disyunción bajo otros supuestos sobre la dependencia entre A y B. Por ejemplo, se podría suponer que son positivamente dependientes, en cuyo caso el intervalo resultante no es tan ajustado como la respuesta asumiendo independencia. pero más estricta que la respuesta dada por la desigualdad de Fréchet. Se usan cálculos comparables para otras funciones lógicas como negación, disyunción exclusiva, etc. Cuando la expresión booleana a evaluar se vuelve compleja, puede ser necesario evaluarla usando los métodos de programación matemática para obtener los mejores límites posibles en la expresión. Un problema similar se presenta en el caso de la lógica probabilística (ver, por ejemplo, Gerla 1994). Si las probabilidades de los eventos se caracterizan por distribuciones de probabilidad o p-boxes en lugar de intervalos, entonces se pueden realizar cálculos análogos para obtener resultados de distribución o p-box que caractericen la probabilidad del evento principal.

Comparaciones de magnitud

La probabilidad de que un número incierto representado por un p-box D sea menor que cero es el intervalo Pr ( D <0) = [ F (0), F̅ (0)], donde F̅ (0) es el límite izquierdo del el cuadro de probabilidad D y F (0) es su límite derecho, ambos evaluados en cero. A continuación, se pueden comparar dos números inciertos representados por casillas de probabilidad para determinar la magnitud numérica con las siguientes codificaciones:

A < B = Pr ( A - B <0),

A > B = Pr ( B - A <0),

A ≤ B = Pr ( A - B ≤ 0), y

A ≥ B = Pr ( B - A ≤ 0).

Por tanto, la probabilidad de que A sea menor que B es la misma que la probabilidad de que su diferencia sea menor que cero, y se puede decir que esta probabilidad es el valor de la expresión A < B .

Al igual que las operaciones aritméticas y lógicas, estas comparaciones de magnitud generalmente dependen de la dependencia estocástica entre A y B , y la resta en la codificación debería reflejar esa dependencia. Si se desconoce su dependencia, la diferencia se puede calcular sin hacer ninguna suposición utilizando la operación de Fréchet.

Computación basada en muestreo

Algunos analistas utilizan enfoques basados en el muestreo para calcular los límites de probabilidad, incluida la simulación de Monte Carlo , los métodos de hipercubo latino o el muestreo por importancia . Estos enfoques no pueden asegurar el rigor matemático en el resultado porque tales métodos de simulación son aproximaciones, aunque su desempeño generalmente se puede mejorar simplemente aumentando el número de repeticiones en la simulación. Por lo tanto, a diferencia de los teoremas analíticos o los métodos basados en la programación matemática, los cálculos basados en muestras por lo general no pueden producir cálculos verificados . Sin embargo, los métodos basados en muestreo pueden ser muy útiles para abordar una variedad de problemas que son difíciles de resolver analíticamente o incluso de resolver rigurosamente. Un ejemplo importante es el uso de muestreo desviado de Cauchy para evitar la maldición de la dimensionalidad al propagar la incertidumbre de intervalo a través de problemas de alta dimensión.

Relación con otros enfoques de propagación de la incertidumbre

PBA pertenece a una clase de métodos que utilizan probabilidades imprecisas para representar simultáneamente incertidumbres aleatorias y epistémicas . PBA es una generalización tanto del análisis de intervalo como de la convolución probabilística , como se implementa comúnmente con la simulación de Monte Carlo . La PBA también está estrechamente relacionada con el análisis robusto de Bayes , que a veces se denomina análisis de sensibilidad bayesiano . PBA es una alternativa a la simulación Monte Carlo de segundo orden .

Aplicaciones

Los análisis de cajas P y límites de probabilidad se han utilizado en muchas aplicaciones que abarcan muchas disciplinas de la ingeniería y las ciencias ambientales, que incluyen:

Diseño de ingeniería
Elicitación de expertos
Análisis de distribuciones de sensibilidad de especies
Análisis de sensibilidad en ingeniería aeroespacial de la carga de pandeo del faldón delantero del lanzador Ariane 5
Modelos ODE de dinámica de reactores químicos
Variabilidad farmacocinética de los COV inhalados
Modelado de aguas subterráneas
Probabilidad de falla límite para sistemas en serie
Contaminación por metales pesados en el suelo en una planta industrial abandonada de ferretería
Propagación de la incertidumbre para modelos de riesgo de salinidad
Evaluación de la seguridad del sistema de suministro de energía
Evaluación de riesgo de tierras contaminadas
Sistemas de ingeniería para el tratamiento de agua potable
Calcular los niveles de cribado del suelo
Análisis de riesgo ecológico y para la salud humana realizado por la EPA de EE. UU. De la contaminación por PCB en el sitio del Superfund del río Housatonic
Evaluación ambiental para el sitio Superfund del estuario de Calcasieu
Ingeniería aeroespacial para empuje de toberas supersónicas
Verificación y validación en computación científica para problemas de ingeniería
Toxicidad para los pequeños mamíferos de la contaminación ambiental por mercurio
Modelado del tiempo de viaje de la contaminación en las aguas subterráneas
Análisis de fiabilidad
Evaluación de especies en peligro de extinción para la reintroducción de la zarigüeya de Leadbeater
Exposición de aves insectívoras a un pesticida agrícola
Proyecciones de cambio climático
Tiempo de espera en los sistemas de colas
Análisis de riesgo de extinción del búho manchado en la Península Olímpica
Bioseguridad contra la introducción de especies invasoras o plagas agrícolas
Análisis estructural de elementos finitos
Coste estimado
Certificación de arsenales nucleares
Riesgos de la fracturación hidráulica a la contaminación del agua

Ver también

Referencias

Otras referencias

Bernardini, Alberto; Tonon, Fulvio (2010). Limitar la incertidumbre en la ingeniería civil: antecedentes teóricos . Berlín: Springer. ISBN 978-3-642-11189-1 .
Ferson, Scott (2002). Software RAMAS Risk Calc 4.0: Evaluación de riesgos con números inciertos . Boca Raton, Florida: Lewis Publishers. ISBN 978-1-56670-576-9 .
Gerla, G. (1994). "Inferencias en lógica de probabilidad". Inteligencia artificial . 70 (1–2): 33–52. doi : 10.1016 / 0004-3702 (94) 90102-3 .
Oberkampf, William L .; Roy, Christopher J. (2010). Verificación y Validación en Computación Científica . Nueva York: Cambridge University Press. ISBN 978-0-521-11360-1 .

Languages

In other projects