domingo, 8 de noviembre de 2020

La función de activación ReLU (Rectified Linear Unit – Unidad lineal rectificada)

 La función de activación ReLU (Rectified Linear Unit – Unidad lineal rectificada) 

http://numerentur.org/funcion-de-activacion-relu/


FA ReLU

La función de activación ReLU (Rectified Linear Unit – Unidad lineal rectificada) es la alternativa a la función sigmoidea. Proporciona una gran mejora respecto al problema del gradiente de fuga que tienen la función sigmoidea y la tanh.  Su fórmula es: R (x) = max (0, x).  Sí x <0, R (x) = 0 y si x> = 0, R (x) = x. ReLU es una función que permite un entrenamiento más rápido de las RNA profundas

 

ReLU surge de los trabajos de base biológica y su fundamento matemático publicados en el 2.000 por R Hahnloser, R. Sarpeshkar, M A Mahowald, R. J. Douglas y H.S. Seung, de la puesta en práctica de Kevin Jarrett, Koray Kavukcuoglu, Marc’Aurelio Ranzato y Yann LeCun en 2.009, de la justificación y proposición como mejor modelo biológico ante la función de activación sigmoidea logística de Xavier Glorot, Antoine Bordes y Yoshua Bengio en 2.011, de la mejora obtenida y denominada Leaky ReLU (LReLU) por Andrew L. Maas, Awni Y. Hannun y Andrew Y. Ng, en 2013, de la solución de la neuronas muertas propuesta por K. Konda, R. Memisevicy D. Krueger en 2014, de la solución a través de ReLU paramétrico (PReLU) del problema de grandes sesgos negativos en autocodificadores y del parámetro de fuga propuesta por Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun en 2.015.

 

En la actualidad (2.016) es la función de activación más utilizada (junto a sus variantes), sobre todo en las redes convolucionales o de aprendizaje profundo. También tiene limitaciones, una de ellas es que sólo debe usarse dentro de capas ocultas, aconsejándose el uso de la función Softmax para las capas de salida. Otra de las deficiencias es que algunos gradientes pueden desaparecer durante el entrenamiento y causar una actualización de peso que hará que la neurona nunca vuelva a activarse, para solucionar esto, se introdujo una pequeña pendiente, denominando la función como Leaky ReLu o PReLU, que permite su posible activación.

 

ReLU y LReLU.


Las ventajas que podemos indicar son:

 

Sus activaciones no requieren ningún cálculo exponencial, esto asegura un entrenamiento más rápido que las funciones sigmoideas debido al menor cálculo numérico.

 

No tienen el problema al calcular el término de error de una desactivación gradual como la sigmoidea o la tanh.

 

 

RELU tiene un problema importante, cuando las entradas se acercan a cero o son negativas el gradiente se vuelve cero, entonces la red no puede realizar una propagación hacia atrás (BP) y no puede aprender. Las neuronas que entran en esta situación se dicen que están «muertas» y no juegan ningún papel, con el tiempo harán que parte de la red no haga nada.

 

LRELU previene el problema BP de ReLU, pero también tiene desventajas, no proporciona predicciones consistentes para valores de entrada negativos.

 

PReLU

La ReLU Paramétrica es un tipo de LReLU con fugas que, en lugar de tener una pendiente predeterminada, como LReLU, de 0,01, hace que sea un parámetro (α < 1) para que la red neuronal se resuelva por sí misma. Se puede entrenar con BP y también se puede optimizar simultáneamente con otras capas. Su objetivo es aumentar la velocidad de aprendizaje al no 


desactivar algunas neuronas.

 

LReLU siempre genera 0 para entradas menores que 0, sin embargo PReLU multiplica las entradas menores que 0 por el parámetro para generar resultados.

 

RReLU

ReLU aleatorio fue propuesto por Bing Xu, Naiyan Wang, Tianqi Chen y Mu Li en 2.015. Es una versión aleatoria de PReLU, donde el α es un número aleatorio. En RReLU las pendientes de las partes negativas se asignan al azar en un rango dado en


 el entrenamiento y luego se fijan en la prueba. Según sus creadores supera a las demás funciones y además en LReLU se desempeña mejor cuando 0,01 se sustituye por 1/5,5.

 

 

 

 

ELU – SELU

El «Exponential Linear Unit» fue propuesta por Djork-Arné Clevert, Thomas Unterthiner y Sepp Hochreiter en el 2.015. Al igual que las ReLU, LReLU y PReLU, las ELU mejoran el problema del gradiente de fuga a través de la identificación de los valores positivos. En contraste con la ReLU, la ELU tiene valores negativos que les permiten empujar las activaciones de las unidades medias más cerca de cero, pero con una menor complejidad computacional. Las LReLU y las PReLU también 


tienen valores negativos pero no garantizan la resistencia al ruido. Los autores afirman que el aprendizaje es más rápido y que el rendimiento de generalización es significativamente mejor que las ReLU y las LReLU en redes con más de 5 capas.

 

 

 

Las SELU (Unidades lineales exponenciales escaladas) es una variante ELU, propuesta por G. Klambauer, T. Unterthiner, A. Mayr y S. Hochreiter en 2.017. Es como una red neuronal auto-normalizada con una varianza media y unitaria cercana a cero, converge hacia la media y varianza unitaria cuando se propaga a través de múltiples capas durante el entrenamiento, lo que la hace adecuada para aplicaciones de aprendizaje profundo. La función es :


Donde τ es el factor de escala. Los valores aproximados de los parámetros de la función SELU son α ≈ 1.6733 y λ ≈ 1.0507.
Los autores dicen que no se ven afectadas los problemas de gradiente y que permiten la construcción de redes neuronales auto-normalizadas que no pueden derivarse mediante ReLU, LReLU, Sigmoide e incluso funciones Tanh.

 

CReLU

El ReLU concatenado fue propuesto a principios de 2.016 por Wenling Shang, Kihyuk Sohn, Diogo Almeida, y Honglak Lee como mejora de las redes CNN. Su forma de trabajar es la siguiente: Hace una copia de las respuestas lineales después de la convolución, las niega, concatena ambas partes de la activación y luego aplica ReLU por completo. La CReLU conserva ambas respuestas lineales, positivas y negativas, lo que permite reconstruir las capas de convolución provistas de esta función de activación.

No hay comentarios:

Publicar un comentario