則該隨機(jī)過 程 Xn 為血液溶漿機(jī)離散時(shí) 間的 Markov鏈。隨機(jī)過 程有兩層 含義:第一,它是 一個(gè)時(shí) 間函 數(shù),隨時(shí)間的改變而改變;第二,每個(gè)時(shí)刻上的函數(shù)值是不確定的,是按照一定的概率隨機(jī)分 布的。實(shí)際上,自然語言中每個(gè)字母或音素的 出現(xiàn) 隨著 時(shí)間的 改變 而改變,是 時(shí)間 的函數(shù), 而在每個(gè)時(shí)刻上出現(xiàn)什么字母(或音 素)則有一定 的概率性,是 隨機(jī)的。1913 年,Markov就 注意到語言符號(hào)出現(xiàn)概率的相互影響,指出自然語言就是一個(gè)由有記憶 信源發(fā)出 的 Markov 鏈,在這一 Markov鏈中,前面的語言符號(hào)對(duì)后面的語言符號(hào)是有影響的。 如果只考慮前面一個(gè)語言符號(hào)對(duì)后面一個(gè)語 言符 號(hào)出現(xiàn) 概率 的影 響,這 樣得 出的 語言 成分的鏈稱做一階馬爾科夫鏈;如果考慮前面 兩個(gè)語 言符 號(hào)對(duì)后 面一 個(gè)語言 符號(hào) 出現(xiàn) 概率 的影響,
則稱做二階馬爾科夫鏈,以此類推,當(dāng)考慮前面 n個(gè) 語言符號(hào) 對(duì)后面 一個(gè)語言 符號(hào) 出現(xiàn)概率的影響,則稱做 n階馬爾 科夫 鏈。隨著 馬爾 科夫 鏈階 數(shù)的 增大,隨機(jī) 試驗(yàn) 所得 出 的語言符號(hào)鏈愈來愈接近有意 義的語 言文 本。然而,正 像語 言學(xué) 家喬 姆 斯基(Chomsky)所 指出的,描述自然語言的馬爾科夫鏈的階數(shù)并不是無窮增加的,它的極限就是語法上和語義 上成立的自然語言句子的集合,這樣,就有理由將自然語言的句子看成是重?cái)?shù)很大的馬爾科 夫鏈了。 n-gram 模型是近年來最流行的語 言模 型,它是這 樣定 義的:如 果用 變量 S代 表文 本 中一個(gè)任意的符號(hào)(字、詞、詞 性標(biāo) 記 或義 類 標(biāo)記 符 號(hào))序列,它由 順 序排 列 的 n 個(gè) 符號(hào) 組 成,即 S= W1 W2… Wi… Wn,則 S在文本中的出現(xiàn)概率 P(W1W2… Wi… Wn)可以用 下式 表示: P(S)= P(W1 W2… Wi… Wn) = P(W1)P(W2/W1)…P(Wn/W1W2… Wn-1) 其中,P(Wn/W1W2… Wn-1)表示在給定上下文 信息 W1 W2… Wn-1的條件 下,Wn 的 出現(xiàn) 的概率,即要考慮前面的 n-1 個(gè)符 號(hào)對(duì) 當(dāng)前符 號(hào)出 現(xiàn)情況 的 影響。 這種 模型 由于
假設(shè) 當(dāng) 前詞的出現(xiàn)只 與前面 n-1 個(gè)詞有關(guān),而 與其他詞 無關(guān),可以看 做滿足 Markov模型的 無后 效性條件,也就可以將其看做是一個(gè)廣義的 n-1階 Markov模型。 274 第七章 自然語言理解 (2) 隱 Markov模型 隱 Markov模型是由 Baum 首先提出的,后被廣泛地應(yīng)用于語音識(shí)別和詞性標(biāo)注。 它包 含了雙重隨機(jī)過程,一個(gè)是系統(tǒng)狀態(tài)變化的過 程,狀態(tài) 變化所 形成 的狀 態(tài)序列 叫做 狀態(tài)鏈; 另一個(gè)是由狀態(tài)決定觀察的隨機(jī)過程,是一個(gè) 輸出 的過 程,所 得到 的輸 出序列 稱做 輸出鏈。 “隱”的意思就是輸出鏈?zhǔn)强捎^察到的,但 狀態(tài) 鏈卻 是“隱藏”的、看不 見的。 一個(gè)隱 Markov 模型的形式描述為 λ=(A,B,π),其中,A={aij}為狀態(tài)轉(zhuǎn)移概率矩陣,且0≤aij



