隐马尔可夫最简单三个例子_隐马尔可夫和马尔可夫区别

2025-01-2509:31:45营销方案0

隐马尔可夫模型(Hidden Markov Model,HMM)是描述两个时间序列联合分布p(x,y)的概率模型,是一个享有盛誉的有向图模型,在自然语言处理中,它被用作解决标注问题的统计机器学习模型。

其中,x代表外界可观测的序列,也称为显状态;而y则是外界无法直接观察到的状态序列,被称作隐状态。

接下来,我们以骰子为例来进一步解释:

设想有三种不同的骰子,分别是D6(六个面)、D4(四个面)和D8(八个面)。如果我们随机选择一个骰子投掷并重复这一过程六次,所得到的数值序列便是观测序列。

具体地,假设我们得到了一串数值[1, 6, 3, 5, 2, 7],这就是我们的观测序列。每次选择的骰子种类[D6, D8, D8, D6, D4, D8]则是状态序列。黑色的箭头代表了状态之间的转换,而红色的箭头则表示从状态序列到观测序列的输出。

在隐马尔可夫模型中,状态序列构成的隐马尔可夫链是核心部分;而在任意时刻产生的观测值仅依赖于该时刻的状态,与其他时刻的状态或观测独立无关。

所谓马尔可夫链是指一系列事件,每个事件的发生仅与前一个事件有关。将这样的多个事件串联起来就构成了马尔可夫链。

在利用BMES标注集进行中文分词时,可以将每个字视为观测值,而BMES的状态则被视为状态值。

BMES标注集具体如下:B代表词语开头,M代表词语中间部分,E代表词语结尾,S代表单字成词。

隐马尔可夫模型是由初始状态概率向量、状态转移概率矩阵和观测概率矩阵共同决定的。接下来我们将分别了解这些组成部分。

系统启动时进入的状态被称为初始状态,这是一个离散型随机变量。其概率分布的参数向量被称为初始状态概率向量。

在骰子的例子中,由于三种骰子被选中的概率相同,其初始状态概率向量可以这样表示。而在中文分词的情境中,句子开头不可能是词语的中间或结尾,只能是以词语开头或单字成词开始,因此其初始状态概率向量可能会有所不同。

根据马尔可夫假设,t+1时刻的状态仅取决于t时刻的状态。由于共有N种状态,因此从状态si到状态sj的概率构成了一个N×N的矩阵,这就是状态转移概率矩阵。

在骰子的例子中,由于每种骰子被选中的概率不受前一次选择的影响,因此状态转移概率矩阵中的所有值均为相等。但在中文分词的情境中,某些状态转移的可能性为零。

这些概率分布的参数在自然语言处理领域通常通过对语料库的统计自动学习得到。

由于观测值仅取决于当前的状态值,因此观测值和状态值都是独立的离散型随机变量。假设观测值有M种可能的取值,而状态值有N种可能的取值,那么这些参数向量就构成了一个N×M的矩阵,即观测概率矩阵或发射概率矩阵。

在骰子的例子中,观测值有八个可能的取值(对应于三种骰子的投掷结果),而状态值有三种可能的取值(对应于三种不同的骰子)。此时的观测概率矩阵就是一个3×8的矩阵。在中文分词的情境中,“忑”字通常作为“忐忑”的词语结尾(E)出现,因此某些特定的观测值与状态值的对应概率会较高。

参考文献:

隐马尔可夫模型详解,《自然语言处理技术》杂志

  • 版权说明:
  • 本文内容由互联网用户自发贡献,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 295052769@qq.com 举报,一经查实,本站将立刻删除。