数学之美

文字与语言

  • 文字编码符合最短编码原理
  • 书面文短,压缩了体积
  • 词是有限的封闭集合,语言是无限的开放集合,有着许多例外

统计概率模型

程序设计语言是上下文无关文法,复杂度为长度的平方。语言是上下文有关文法,复杂度是长度的6次方。主要解决的是一个词语序列是否构成一个可理解的合理的句子。

统计概率模型利用的是一个句子出现的概率简化到马尔科夫模型

  • 也可用高阶马尔科夫模型(一般为三元模型)。
  • 当词语出现的次数过于少时,要注意零概率问题和平滑方法。利用古德-图灵估计公式,将看得到的所有概率和调低一点,剩下的给看不见的小概率。
  • 将其用于中文分词:将一个句子用几种分词方法分割为不同的序列,通过比较它们的概率,最大的就是最准确的。分词是一个动态规划问题。通过维特比(Viterbi)算法解决。

隐马尔科夫模型(HMM)

知乎上有关于HMM的详细介绍。主要有三个问题:

  • 根据已知模型计算产生序列的概率
  • 根据产生的序列推测状态序列
  • 给定足够数据量,估计HMM中的参数

主要算法有baum-welch algorithm ,viterbi algorithm, forward algorithm.


前七章看完了,后面的数学还是挺难得,尤其是看了HMM相关知识之后,慢慢看吧。

Buy Me A Coffee!