Intrinsic Plasticity 公式推导

it2023-03-15 123

本文地址：https://goodgoodstudy.blog.csdn.net/article/details/109179566

文章目录

预备知识IP问题描述梯度下降法计算梯度随机梯度下降参考文献实验

预备知识

概率分布的变换，

f_y(y) \partial y = f_x(x) \partial x

或者

f_y(y) = f_x(x)\frac{\partial x}{\partial y} \tag{1}

参考证明DL散度，衡量两个分布之间的差异

DL(p_1\| p_2) = \int p_1(y) \log \left(\frac{p_1(y)}{p_2(y)}\right) dy

IP

问题描述

假设神经元的输出方程为： $y = g (x)$ 其中 $x$ 为到达该神经元的所有信号的总和，并且服从分布 $\sim f_x(x)$ 。 $g(\cdot)$ 为非线性激活函数，如 Sigmoid 函数，单调递增，由(1)式得： $\sim f_y(y)= f_x(x)\frac{\partial x}{\partial y}$

现在，我们希望神经元的输出 $y$ 能够服从某一特定的分布 $f_{exp}$ ，如指数分布： $f_{exp} = \frac{1}{\mu} \exp\left(-\frac{y}{\mu}\right)$ 高斯分布: $f_{exp} = \frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y-\mu)^2}{\sigma^2}\right)$

梯度下降法

将神经元的输出方程改为： $y = g (a x + b)$ 通过调整 $a$ 和 $b$ 的值，使得输出 $y$ 的分布服从指定分布

构造损失函数： $\begin{aligned} DL(f_y || f_{exp}) &= \int f_y \log\left(\frac{f_y}{f_{exp}}\right) dy \\\\ &= E_y[\log(f_y)-\log(f_{exp})] \\\\ &= E_y\left[\log(f_x) - \log\left(\frac{\partial y}{\partial x}\right)-\log(f_{exp})\right] \end{aligned}$ 通过优化这个损失函数可以使得 $f_y$ 接近 $f_{exp}$

计算梯度

以 $\displaystyle{f_{exp} = \frac{1}{\mu} \exp\left(-\frac{y}{\mu}\right)}$ 为例

假设激活函数为 Sigmoid 函数， $\displaystyle{g(x) = \frac{1}{1-\exp(-x)}}$ ，则 $\frac{1}{1-\exp(-ax-b)}$ 则 $\frac{\partial y}{\partial x} = ay(1-y) \tag{2}$ $\frac{\partial y}{\partial a} = xy(1-y) \tag{3}$ $\frac{\partial y}{\partial b} = y(1-y) \tag{4}$

参数

a

的梯度

\begin{aligned} \frac{\partial}{\partial a} DL(f_y || f_{exp}) &= \frac{\partial}{\partial a}E_y\left[\log(f_x) - \log\left(\frac{\partial y}{\partial x}\right)-\log(f_{exp})\right] \\\\ &=E_y\left[0-\frac{\partial}{\partial a}(\log a + \log y + \log(1-y) ) - \frac{\partial}{\partial a}(-\log \mu - \frac{y}{\mu}) \right] \\\\ &= -\frac{1}{a} - E_y \left[\frac{1}{y} \frac{\partial y}{ \partial a} - \frac{1}{1-y} \frac{\partial y}{ \partial a} + \frac{1}{\mu} \frac{\partial y}{ \partial a}\right] \\\\ &= -\frac{1}{a} - E_y \left[\left(\frac{1}{y} - \frac{1}{1-y} + \frac{1}{\mu} \right)\frac{\partial y}{ \partial a}\right] \\\\ &= -\frac{1}{a} - E_y \left[x\left(1-2y+\frac{1}{\mu}y(1-y)\right)\right] \end{aligned}

参数

b

的梯度

\begin{aligned} \frac{\partial}{\partial b} DL(f_y || f_{exp}) &= \frac{\partial}{\partial b}E_y\left[\log(f_x) - \log\left(\frac{\partial y}{\partial x}\right)-\log(f_{exp})\right] \\\\ &=E_y\left[0-\frac{\partial}{\partial b}(\log a + \log y + \log(1-y) ) - \frac{\partial}{\partial b}(-\log \mu - \frac{y}{\mu}) \right] \\\\ &= - E_y \left[\frac{1}{y} \frac{\partial y}{ \partial b} - \frac{1}{1-y} \frac{\partial y}{ \partial b} + \frac{1}{\mu} \frac{\partial y}{ \partial b}\right] \\\\ &= - E_y \left[\left(\frac{1}{y} - \frac{1}{1-y} + \frac{1}{\mu} \right)\frac{\partial y}{ \partial b}\right] \\\\ &= - E_y \left[1-2y+\frac{1}{\mu}y(1-y)\right] \end{aligned}

随机梯度下降

上边计算梯度都是基于 y 的期望，实际实现的时候是采用随机梯度下降算法 $\Delta a$ $\Delta b$ 其中 $\begin{aligned} \Delta b &= \eta \left[1-(2+\frac{1}{\mu})y-\frac{y^2}{\mu}\right] \\\\ \Delta a &= \frac{\eta}{a} + x\eta \left[1-(2+\frac{1}{\mu})y-\frac{y^2}{\mu}\right] \\\\ &= \frac{\eta}{a} + x\Delta b \end{aligned}$

参考文献

A Gradient Rule for the Plasticity of a Neuron’s Intrinsic ExcitabilityImproving reservoirs using intrinsic plasticity

实验

IP 的价值有待商榷，代码：https://goodgoodstudy.blog.csdn.net/article/details/109226320

如下展示的是使用 IP 前后储备池状态的时空分布，纵坐标代表 100 个神经元，横坐标表示时间：

使用 IP 前使用 IP 后 IP 规则使得每个神经的输出分布相近

最新回复(0)