信息导论

Shannon Theory

接收一串由$a_1,a_2,\cdots,a_k$随机出现,依次排列而成的字符,其中$a_k$出现概率为$p_k$,记此概率分配为$A$,总概率和为$1$,对于足够长的字母个数为$N$的序列,$a_k$出现的次数$\sim p_kN$,对于一个特定序列而言,在所有重排中其出现的次数为

$$\frac{N!}{\displaystyle\prod_k [(p_kN)!]}\overset{\displaystyle N!\sim \sqrt{2\pi N}\left(\frac{N}{e}\right)^N}{\sim} \frac{1}{\displaystyle\prod_k p_k^{p_k N}}\\
\qquad\\
=2^{NS_A}$$

其中$\displaystyle S_A=-\sum_k p_k\log_2{p_k}$为在概率分配$A$下单字符的Shannon Entropy 信息熵

信息熵满足$S_A\ge 0$,当且仅当某个$p_k=1$时等号成立,而由拉格朗日乘数法知所有
$p_k=1/k$时,信息熵取最大值

对于$N$个字母组成的字符串,其可以被压缩为$NS_A$个$\text{bit}$,若所有字母出现频率相等,$S_A=\log_2k$,将$k$进制转换为二进制编码即可做到;若出现频率不相等,则可以通过特殊编码方式,如Huffman编码,适当减少出现频率高的字母的编码长度,增加频率低的字母的编码长度来实现;若字母出现不是完全随机,则可以从中提取出有效信息将体积压缩到更小,如$abab\cdots abab=Nab$

由$a、b$组成的字符串中若存在短程有序序列,则其信息熵降低,可以将这些短程序列合并得到更小的压缩体积,这种情况可以与邻近自旋之间存在相互作用的一维自旋链相类比;对于理想气体近似,忽略短程相互作用,若单个字母的信息熵为$S$,则长度为$N$的字符串的熵即为$NS$,注意这只对$N>>1$的情形近似成立

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器