文字与语言
- 文字编码符合最短编码原理
- 书面文短,压缩了体积
- 词是有限的封闭集合,语言是无限的开放集合,有着许多例外
统计概率模型
程序设计语言是上下文无关文法,复杂度为长度的平方。语言是上下文有关文法,复杂度是长度的6次方。主要解决的是一个词语序列是否构成一个可理解的合理的句子。
统计概率模型利用的是一个句子出现的概率简化到马尔科夫模型
- 也可用高阶马尔科夫模型(一般为三元模型)。
- 当词语出现的次数过于少时,要注意零概率问题和平滑方法。利用古德-图灵估计公式,将看得到的所有概率和调低一点,剩下的给看不见的小概率。
- 将其用于中文分词:将一个句子用几种分词方法分割为不同的序列,通过比较它们的概率,最大的就是最准确的。分词是一个动态规划问题。通过维特比(Viterbi)算法解决。
隐马尔科夫模型(HMM)
知乎上有关于HMM的详细介绍。主要有三个问题:
- 根据已知模型计算产生序列的概率
- 根据产生的序列推测状态序列
- 给定足够数据量,估计HMM中的参数
主要算法有baum-welch algorithm ,viterbi algorithm, forward algorithm.
前七章看完了,后面的数学还是挺难得,尤其是看了HMM相关知识之后,慢慢看吧。