微积分第3讲笔记(多元函数的导数与微分)
未央软-11 鲁睿
对于一元函数的导数定义:\(f'(x_0)=\lim\limits_{x\to x_0}\dfrac{f(x)-f(x_0)}{x-x_0}\),对于多元时 \(\mathbf{x}-\mathbf{x_0}\) 是向量,无法成为分母。
解决方法 \(1\):沿向量求导 \(\partial _{\mathbf{v}}f(\mathbf{x}^*)=\lim\limits_{t\to 0}\dfrac{f(\mathbf{x}_0+t\mathbf{v})-f(\mathbf{x}_0)}{t}\),设 \(E\subseteq \mathbb{R}^m\),若 \(\exists\ \delta >0,s.t.\forall \ \mathbf{x}\in \mathbb{R}^m,\|\mathbf{x}-\mathbf{x_0}\|<\delta\Longrightarrow \mathbf{x}\in E\),称 \(\mathbf{x}_0\) 为内点
对经过 $x^* $ 处斜率为 \(\vec{v}\) 的任意曲线均成立 \(\partial_{\vec{v}} f(x^*)=Const,\ \mbox{for any curve }\)
方向导数:(将 \(\vec{v}\) 单位化,将导数定义在像空间) \(f\) 在 \(\mathbf{x}^*\) 处沿着单位向量 \(\mathbf{v}\) 所在方向的方向导数为
解决方法 \(1'\):偏导数,\(\dfrac{\partial }{\partial x^{k}}f(x^{1},x^2,\cdots,x^{m})\),\(x=x^1\mathbf{v}_1+\cdots x^m\mathbf{v}_m\),则记
为 $f $ 在 \(x^*\) 处对坐标架 \(x^{k}\) 的偏导数
偏导数只能代表函数极少一部分性质(构造十字架“高高在上”,其余函数值在下方,该十字架在 \(x\) 和 \(y\) 方向上偏导数都是 \(0\) ,但是该十字架在交叉处不可导)
有一般情况下,坐标系是局部的、非线性的坐标系
解决方法 \(2\):多元函数的原像空间是多维空间,多维空间并不是一些一维空间的简单汇集,其包含了无穷多个一维空间,且是无穷多个一维空间的有机结合
引入映射的可微性与微分(将导数定义为连接原空间和像空间的法则) :设 \(E \subseteq \mathbb{R}^{m}, \mathrm{x}^{*}\) 是 \(E\) 的一个内点。 称 \(f: E \rightarrow \mathbb{R}^{p}\) 在 \(\mathrm{x}^{*}\) 处可微,如果存在线性映射 \(L: \mathbb{R}^{m} \rightarrow \mathbb{R}^{p}\) (称为 \(f: E \rightarrow \mathbb{R}^{p}\) 在 \(\mathbf{x}^{*}\) 处的导数或微分, 记为 \(\mathrm{D} f\left(\mathbf{x}^{*}\right)\) )使得
\(\left(p=1\right.\) 时更常称为微分, 记为 \(\left.\mathrm{d} f\left(\mathbf{x}^{*}\right)\right)\)
例:证明 \(\mbox{inv}:\mathcal{G L}(m) \rightarrow \mathcal{G L}(m), \quad \operatorname{inv}(A)=A^{-1}\) 是可微映射,并求其微分。
由 \(\mbox{inv}(I-B)=I+C=I+B+CB\),其中 \(\|CB\|\leq \dfrac{\|B\|^2}{1-\|B\|}\to o(B)\)
则 \(\mbox{inv}(A_0+B)=(A_0(I+A_0^{-1}B))^{-1}=(I+A_0^{-1}B)^{-1}A_0^{-1}=(I-A_0^{-1}B+o(B))A_0^{-1}\)
从而其可微, \(\mbox{Dinv}(A_0)(B)=-A_0^{-1}BA_0^{-1}\)
\(dx,dy,dz\) 本质上是坐标线性函数,对于空间中任意一组基,\(\mathbf{v}_{1},\cdots ,\mathbf{v}_{m}\),取 \(\mathbf{v}^{*1},\cdots ,\mathbf{v}^{*m}\) 为 \(\mathbf{v}_{1},\cdots ,\mathbf{v}_{m}\) 的对偶基 \(\mathbf{v}^{*k}:\boldsymbol R^{m}\to \boldsymbol R\) 为线性函数
可以推出 \(df(\mathbf{x}^*)=(\partial _1f\quad \cdots\quad \partial _mf)\begin{pmatrix}dx^1\\\vdots\\dx^{m}\end{pmatrix}\)
对于 \(df=\dfrac{\partial f}{\partial x}dx+\dfrac{\partial f}{\partial y}dy+\dfrac{\partial f}{\partial z}dz\),本质上是 \(df\) 这个坐标函数可以写成 \(dx,dy,dz\) 这三个坐标函数的线性组合
对行列式函数微分有 \(D \det(A)(B) = \tr(A^*B)\), \(\det(A+B)=\det(A)+\tr(A^*B),B\to 0\)
则定义 \(e\) 的矩阵幂 \(e^{A}:=\displaystyle \sum_{n=0}^{\infty}\dfrac{A^n}{n!}\),考虑行列式函数 \(f(t)=\det (e^{tA})\)
而 \(\det(e^{\Delta t A})\approx \det(I+\Delta tA)=1+\tr(A)\Delta t,\Delta t\to 0\),即 \(\det'(e^{\Delta tA})=\tr(A)\)
则 \(\displaystyle \dfrac{df(t)}{dt}=\tr(A)\cdot \det(e^{tA})=\tr(A)f(t)\),该微分方程解为 \(f(t)=\det(e^{tA})=e^{t\tr(A)}\)
对极坐标 \(\begin{pmatrix}dx\\dy\end{pmatrix}=\hat{\rho}\begin{pmatrix}\cos \theta\\\sin \theta\end{pmatrix}+\rho \hat{\theta}\begin{pmatrix}-\sin \theta\\\cos \theta\end{pmatrix}\),代表坐标架的变换,这两个方向是正交的,但是长度不是单位的,有
微分的形式不变性:对任意坐标系,\(du=\displaystyle \sum_{j=1}^{m}\partial _{x^{j}}udx^j=\displaystyle \sum_{j=1}^{m}\partial _{y^{j}}udy^j\)
梯度的定义:先对可以几何直观现实的情况:设\(L:\mathbb{R}^{m}\to R\) 为线性映射,若 \(\forall \ \vec{v}\in \mathbb{R}^m\),都有 \(L(\vec{v})=\langle\vec{v}, \nabla L\rangle\)
如图,由于已经规定 \(L\) 是线性映射,其图像必然是 \(m+1\) 维空间中的一个 \(m\) 维“平面”。现取此“平面”与自变量“平面”(同样是 \(m\) 维空间)的 \(m-1\) “交线”,此“交线”也自然是“直线”。由于此 \(m-1\) 维”交线“在 \(m\) 维自变量空间中,在该空间中必然只有唯一一个方向与其垂直。\(\nabla L\) 就在这个方向。由几何学可以知道,图像上任意一点的高度,等于其在自变量空间的投影向量与 \(\nabla L\) 的内积与 \(\nabla L\) 点对应的高度的乘积。
可微函数的梯度:设 \(f\) 在 \(\mathbf{x}^{*} \in E\) 处可微, 称 \(\mathrm{d} f\left(\mathbf{x}^{*}\right)\) 的梯度为 \(f\) 在 \(\mathbf{x}^{*} \in E\) 处的梯度, 记为 \(\nabla f\left(\mathbf{x}^{*}\right)\), 即对任意向量 \(\mathbf{v}\),
对以 \(\mathbf{v}_{1}, \ldots, \mathbf{v}_{m}\) 为基的内积空间,要想求 \(\nabla f\left(\mathbf{x}^{*}\right)\) 在这组基底下的坐标。设
这里 \(\mathbf v\) 是任意向量。则有 \(\left\langle\mathbf{v}, \nabla f\left(\mathbf{x}^{*}\right)\right\rangle=\sum_{1 \leq i, j \leq m} \xi^{i}\left\langle\mathbf{v}_{i}, \mathbf{v}_{j}\right\rangle c^{j}=\left(\xi^{1}, \ldots, \xi^{m}\right)\left(\left\langle\mathbf{v}_{i}, \mathbf{v}_{j}\right\rangle\right)_{m \times m}\left(\begin{array}{c}c^{1} \\ \vdots \\ c^{m}\end{array}\right)\) \(\mathrm{d} f\left(\mathbf{x}^{*}\right) \mathbf{v}=\partial_{1} f\left(\mathbf{x}^{*}\right) \xi^{1}+\cdots+\partial_{m} f\left(\mathbf{x}^{*}\right) \xi^{m}=\left(\xi^{1}, \ldots, \xi^{m}\right)\left(\begin{array}{c}\partial_{1} f\left(\mathbf{x}^{*}\right) \\ \vdots \\ \partial_{m} f\left(\mathbf{x}^{*}\right)\end{array}\right)\)
由梯度定义知以上两式应对任意 \(\xi^{1}, \ldots, \xi^{m}\) 恒等, 所以
因此梯度的表达式:
其中 \(\left(g^{i j}\right)_{m \times m}=\left(\left\langle\mathbf{v}_{i}, \mathbf{v}_{j}\right\rangle\right)_{m \times m}^{-1}\) ,为度量矩阵的逆。对于一般的 \(x,y,z\) 坐标系,为单位矩阵。
本站总访问量次