6. 中心极限定理与信息论

6.1 中心极限定理的严格推导

辅助变量构造

定义标准化变量:

Y=XNxcNY = \frac{X - N \cdot \langle x \rangle_c}{\sqrt{N}}

其中:

  • XXNN 个独立随机变量的和
  • xc\langle x \rangle_c 是单次试验的累积量(期望值)

累积量变换

YncN1n2N{x2c,n=20,n>2\langle Y^n \rangle_c \cdot N^{1 - \frac{n}{2}} \xrightarrow{N \to \infty} \begin{cases} \langle x^2 \rangle_c, & n=2 \\ 0, & n>2 \end{cases}

高斯分布收敛

limNpY(y)=12πx2cey22x2c\lim_{N \to \infty} p_Y(y) = \frac{1}{\sqrt{2\pi \langle x^2 \rangle_c}} e^{-\frac{y^2}{2\langle x^2 \rangle_c}}

中心极限定理表述

{Xi}\{X_i\} 为独立同分布随机变量序列,满足:

XincO(Nn/2),n\langle X_i^n \rangle_c \ll O(N^{n/2}), \quad \forall n

则标准化和:

Y=1σNi=1N(Xiμ)Y = \frac{1}{\sigma \sqrt{N}} \sum_{i=1}^N (X_i - \mu)

的概率密度函数收敛到标准正态分布,其中 μ=Xi\mu = \langle X_i \rangle, σ2=(Xiμ)2\sigma^2 = \langle (X_i - \mu)^2 \rangle

Lévy 分布

当高阶累积量不满足有限性条件时,收敛到更一般的 Lévy 分布(参考 Bowers 书 P46-47)

6.2 大数定律与热力学极限

热力学极限的分类

NN \to \infty 时:

  1. 强度量O(1)O(1)
    • 温度 TT、压强 PP、磁场 BB
  2. 广延量O(N)O(N)
    • 能量 EE、熵 SS、体积 VV
  3. 指数依赖量O(eNϕ)O(e^{N\phi})
    • 微观状态数

注意:长程相互作用(如引力)会破坏广延性

Stirling 公式的严格推导

N!=0xNexdx=0eN(lnxx/N)dxeNlnNN2πN\begin{aligned} N! &= \int_0^\infty x^N e^{-x} dx \\ &= \int_0^\infty e^{N(\ln x - x/N)} dx \\ &\approx e^{N\ln N - N} \sqrt{2\pi N} \end{aligned}

lnN!=NlnNN+12ln(2πN)+O(1/N)\ln N! = N\ln N - N + \frac{1}{2}\ln(2\pi N) + O(1/N)

6.3 信息熵与概率分布

信息量的定义

设离散随机变量 XX 取值 {x1,,xM}\{x_1,\dots,x_M\},概率分布 {p1,,pM}\{p_1,\dots,p_M\}。发送 NN 个独立符号的消息:

  1. 无先验知识时:需要 log2MN=Nlog2M\log_2 M^N = N\log_2 M 比特
  2. 已知概率分布时:典型序列数 g=N!i=1M(Npi)!g = \frac{N!}{\prod_{i=1}^M (N p_i)!}

lng=Ni=1Mpilnpi+O(lnN)\ln g = -N \sum_{i=1}^M p_i \ln p_i + O(\ln N)

信息熵

S[{pi}]=i=1Mpilnpi=lnpiS[\{p_i\}] = -\sum_{i=1}^M p_i \ln p_i = -\langle \ln p_i \rangle

性质:

  • 最小值 Smin=0S_{\min} = 0 (确定性分布 pi=δijp_i = \delta_{ij}
  • 最大值 Smax=lnMS_{\max} = \ln M (均匀分布 pi=1/Mp_i = 1/M

信息熵的物理意义

度量概率分布的"无序程度":

  • 高熵:高不确定性,高信息含量
  • 低熵:高确定性,低信息含量

6.4 统计力学中的熵

玻尔兹曼熵

SB=kBlnΩS_B = k_B \ln \Omega

其中 Ω\Omega 为宏观态对应的微观状态数

香农熵与统计力学

统计力学中的熵本质上是香农信息熵在热力学极限下的体现:

limN1NSB(E,V,N)=s(ε,v)\lim_{N \to \infty} \frac{1}{N} S_B(E, V, N) = s(\varepsilon, v)

其中 ε=E/N\varepsilon = E/N, v=V/Nv = V/N

熵的物理意义

  1. 热力学第二定律:孤立系统熵不减
  2. 信息解释:系统微观状态不确定性的度量
  3. 能量品质:熵越高,能量可用性越低