Concept

information-theory

2026-04-24

概述

熵衡量数据的随机性,Huffman编码通过高频字符短编码实现无损压缩,减少存储空间。

什么是 information-theory

信息论是研究信息度量、传输和存储的数学理论,由香农(Claude Shannon)在1948年奠基。其核心是量化信息的不确定性(熵),并建立通信系统中数据压缩与传输效率的极限。


核心概念

  1. 熵(Entropy)

    • 公式:$ H(X) = -\sum p(x) \log p(x) $
    • 衡量随机变量的不确定性。熵越高,信息越随机,压缩潜力越大。
    • 例:抛硬币的熵为1 bit,而均匀分布的6面骰子熵为$ \log_2 6 \approx 2.58 $ bits。
  2. Huffman编码

    • 基于字符频率构建前缀码,高频字符用短码,低频用长码,实现无损压缩。
    • 例:英文文本中 ’e’ 可能用 1 bit 表示,而罕见字符用更长码。
  3. 信道容量

    • 香农第二定理:在有噪声信道中,最大传输速率 $ C = B \log_2(1 + \frac{S}{N}) $,其中 $ B $ 为带宽,$ S/N $ 为信噪比。
  4. 互信息(Mutual Information)

    • 衡量两个变量共享的信息量,用于特征选择(如机器学习中的信息增益)。

典型应用场景

  • 数据压缩:JPEG、ZIP、MP3 等依赖熵编码减少冗余。
  • 密码学:密钥强度与熵相关(如密码的随机性)。
  • 通信协议:5G、Wi-Fi 的信道编码优化(如LDPC码)。
  • 机器学习:特征选择(信息增益)、神经网络的信息瓶颈理论。

相关技术

  • 算术编码:比Huffman更高效,适用于小概率符号。
  • LZ77/LZ78:基于重复模式的压缩(如gzip)。
  • 香农-费诺编码:与Huffman类似,但性能稍差。
  • 现代扩展:信息论在深度学习中的应用(如变分自编码器、信息瓶颈)。

学习路径建议

  1. 数学基础:概率论、线性代数(理解熵公式)。
  2. 经典教材:香农原著《A Mathematical Theory of Communication》。
  3. 实践工具:Python的scipy.stats.entropy计算熵,zlib实现压缩。
  4. 进阶方向:研究信道编码(如Turbo码)、信息论在AI中的应用(如Transformer的注意力机制)。
  5. 项目实践:实现Huffman编码器、分析通信信道容量、用信息增益优化特征选择。

相关来源