Existen cuatro aspectos que caracterizan una red neuronal: su topología, el mecanismo de aprendizaje, tipo de asociación entre la información de entrada y de salida, y la forma de representación de estas informaciones.
Consiste en la organización y disposición de las neuronas en la red formando capas o agrupaciones de neuronas. Los parámetros fundamentales de la red son: número de capas, número de neuronas por capa, grado de conectividad y tipo de conexión entre neuronas.
Al hacer una clasificación topológica de las RNAs se suelen distinguir:
El aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una información de entrada. Los cambios que se producen durante la etapa de aprendizaje se reducen a la destrucción (el peso de la conexión toma el valor 0), modificación y creación (el peso de la conexión toma un valor distinto de 0) de conexiones entre las neuronas.
Podemos considerar que el proceso de aprendizaje ha terminado cuando los valores de los pesos permanecen estables
dwj / dt = 0
Uns aspecto importante es determinar los criterios de la regla de aprendizaje; cómo se van a modificar los pesos. De forma general se consideran dos tipos de reglas:
La diferencia entre ambos tipos estriba en la existencia o no de una agente externo que controle todo el proceso.
Otro criterio para diferenciar las reglas de aprendizaje se basa en considerar si la red puede aprender durante su funcionamiento (aprendizaje ON LINE) o requiere de una fase previa de entrenamiento (aprendizaje OFF LINE). En este último debe existir un conjunto de datos de entrenamiento y un conjunto de datos de test o prueba; igualmente los pesos de las conexiones no se modifican después de terminar la etapa de entrenamiento de la red. En la red ON LINE los pesos varían dinámicamente cada vez que se presente una nueva información al sistema.
Se caracteriza porque el proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor, maestro) que determina la respuesta que debería generar la red a partir de una entrada determinada. El supervisor comprueba la salida generada por el sistema y en el caso de que no coincida con la esperada, se procederá a modificar los pesos de las conexiones.
En este tipo de aprendizaje se suelen distinguir a su vez tres formas de llevarlo a cabo:
Incr(wji) = ß yi (dj - yj)
siendo: | |
Incr(wji) : Variación en el peso de la conexión entre las neuronas i y j | |
yi : Salida de la neurona i | |
dj : Valor de salida deseado para la neurona j | |
yj : Valor de salida obtenido en la neurona j | |
ß : Factor de aprendizaje (0 < ß <= 1) que regula la velocidad del aprendizaje |
Algoritmos que utilizan este tipo de aprendizaje son:
- Regla de aprendizaje del perceptron: utilizada en la red PERCEPTRON
- Regla delta o del mínimo error cuadrado: utilizado en las redes ADALINE y MADALINE.
- Regla delta generalizada: utilizada en redes multicapa
Ejemplos de este tipo de algoritmos son el denominado Linear Reward-Penalty o LR-P [Narenda 74] y el Adapative Heuristic Critic [Barto 83] utilizado en redes feedforward de tres capas.
No requieren de influencia externa para ajustar los pesos de las conexiones entre sus neuronas. La red no recibe ninguna información por parte del entorno que le indique si la salida generada en respuesta a una determinada entrada es o no correcta; son capaces de autoorganizarse. Estas redes deben encontrar las características, regularidades, correlaciones o categorías que se pueden establecer entre los datos de la entrada. Pero, ¿qué genera la red en la salida?. Existen varias posibilidades en cuanto a interpretación :
- La salida representa el grado de familiaridad o similitud entre la información de entrada y las informaciones mostradas con anterioridad.
- Clusterización o establecimiento de categorias, indicando la red a la salida a qué categoría pertenece la información de entrada, siendo la propia red la que debe establecer las correlaciones oportunas.
- Codificación de los datos de entrada, generando a la salida una versión codificada con menos bits, pero manteniendo la información relevante de los datos.
- Mapeo de características, obteniéndose una disposición geométrica que representa un mapa topográfico de las características de los datos de entrada.
Los algoritmos de aprendizaje no supervisado suelen ser de dos tipos:
Incr (wji) = yi yj
Si las dos unidades son activas (salida positiva), se produce un reforzamiento de la conexión. Si por el contrario, una es activa y la otra pasiva (salida negativa), se produce un debilitamiento de la conexión. Por tanto, la modificación de los pesos se realiza en función de los estados (salidas) de las neuronas, obtenidos tras la presentación de cierto estímulo (información de entrada), sin tener en cuenta si se deseaba obtener o no esos estados de activación.
Este tipo de aprendizaje se utiliza en la RED HOPFIELD (1982), ADDITIVE GROSSBERG (1973), LEARNING MATRIX (1961), BIDIRECTIONAL ASSOCIATIVE MEMORY (1988), TEMPORAL ASSOCIATIVE MEMORY (1972). Estas dos últimas son redes feedforward/feedback de 2 capas.
El objetivo de este aprendizaje es categorizar (clustering) los datos que se introducen en la red. De esta forma, las informaciones similares son clasificadas formando parte de la misma categoría, activando por tanto la misma neurona de salida. La variación del peso de una conexión entre una unidad i y otra j será nula si la neurona j no recibe excitación por parte de la neurona i y se modificará si es excitada por dicha neurona i
Un ejemplo de este tipo de aprendiaje es el desarrollado por Kohonen conocido como Learning Vector Quantization (LVQ) aplicado a redes feedforward de dos capas.
Las redes neuronales son sistemas que almacenan cierta información aprendida; esta se registra de forma distribuida en los pesos asociados a las conexiones entre neuronas. Hay que establecer cierta relación o asociación entre la información presentada a la red y la salida ofrecida por esta. Es lo que se conoce como memoria asociativa.
Existen dos formas primarias de realizar esta asociación entrada/salida y que generan dos tipos de redes:
Redes contínuas : En un gran número de redes, tanto los datos de entrada como de salida son de naturaleza analógica (valores reales contínuos y normalmente normalizados, por lo que su valor absoluto será menor que la unidad). En este caso las funciones de activación de las neuronas serán también contínuas, del tipo lineal o sigmoidal.
Redes discretas : Por el contrario, otras redes sólo admiten valores discretos [0,1] a la entrada, generando también en la salida respuestas de tipo binario. La función de activación en este caso es del tipo escalón.
Redes híbridas : La información de entrada es contínua pero a la salida ofrecen información binaria.