首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品


語音合成技術(shù)的原理

清華大學計算機系智能技術(shù)與系統(tǒng)國家重點實驗室

吳志勇 蔡蓮紅

---- 當 前, 語 音 合 成 的 研 究 已 經(jīng) 進 入 文 字 - 語 音 轉(zhuǎn) 換(TTS) 階 段, 其 功 能 模 塊 可 分 為 文 本 分 析、 韻 律 建 模 和 語 音 合 成 三 大 模 塊。 其 中, 語 音 合 成 是TTS 系 統(tǒng) 中 最 基 本、 最 重 要 的 模 塊。 概 括 起 來 說, 語 音 合 成 的 主 要 功 能 是: 根 據(jù) 韻 律 建 模 的 結(jié) 果, 從 原 始 語 音 庫 中 取 出 相 應(yīng) 的 語 音 基 元, 利 用 特 定 的 語 音 合 成 技 術(shù) 對 語 音 基 元 進 行 韻 律 特 性 的 調(diào) 整 和 修 改, 最 終 合 成 出 符 合 要 求 的 語 音。

----語 音 合 成 技 術(shù) 經(jīng) 歷 了 一 個 逐 步 發(fā) 展 的 過 程, 從 參 數(shù) 合 成 到 拼 接 合 成, 再 到 兩 者 的 逐 步 結(jié) 合, 其 不 斷 發(fā) 展 的 動 力 是 人 們 認 知 水 平 和 需 求 的 提 高。 目 前, 常 用 的 語 音 合 成 技 術(shù) 主 要 有: 共 振 峰 合 成、LPC 合 成、PSOLA 拼 接 合 成 和LMA 聲 道 模 型 技 術(shù)。 它 們 各 有 優(yōu) 缺 點, 人 們 在 應(yīng) 用 過 程 中 往 往 將 多 種 技 術(shù) 有 機 地 結(jié) 合 在 一 起, 或 將 一 種 技 術(shù) 的 優(yōu) 點 運 用 到 另 一 種 技 術(shù) 上, 以 克 服 另 一 種 技 術(shù) 的 不 足。

共 振 峰 合 成

----語 音 合 成 的 理 論 基 礎(chǔ) 是 語 音 生 成 的 數(shù) 學 模 型。 該 模 型 語 音 生 成 過 程 是 在 激 勵 信 號 的 激 勵 下, 聲 波 經(jīng) 諧 振 腔( 聲 道), 由 嘴 或 鼻 輻 射 聲 波。 因 此, 聲 道 參 數(shù)、 聲 道 諧 振 特 性 一 直 是 研 究 的 重 點。 在 圖1 所 示 的 某 一 語 音 的 頻 率 響 應(yīng) 圖 中, 標 有Fp1、Fp2、Fp3 … … 處 為 頻 率 響 應(yīng) 的 極 點, 此 時, 聲 道 的 傳 輸 頻 率 響 應(yīng) 有 極 大 值。 習 慣 上, 把 聲 道 傳 輸 頻 率 響 應(yīng) 上 的 極 點 稱 之 為 共 振 峰, 而 語 音 的 共 振 峰 頻 率( 極 點 頻 率) 的 分 布 特 性 決 定 著 該 語 音 的 音 色。

----音 色 各 異 的 語 音 具 有 不 同 的 共 振 峰 模 式, 因 此, 以 每 個 共 振 峰 頻 率 及 其 帶 寬 作 為 參 數(shù), 可 以 構(gòu) 成 共 振 峰 濾 波 器。 再 用 若 干 個 這 種 濾 波 器 的 組 合 來 模 擬 聲 道 的 傳 輸 特 性( 頻 率 響 應(yīng)), 對 激 勵 源 發(fā) 出 的 信 號 進 行 調(diào) 制, 再 經(jīng) 過 輻 射 模 型 就 可 以 得 到 合 成 語 音。 這 就 是 共 振 峰 合 成 技 術(shù) 的 基 本 原 理。 基 于 共 振 峰 的 理 論 有 以 下 三 種 實 用 模 型。

----級 聯(lián) 型 共 振 峰 模 型 在 該 模 型 中, 聲 道 被 認 為 是 一 組 串 聯(lián) 的 二 階 諧 振 器。 該 模 型 主 要 用 于 絕 大 部 分 元 音 的 合 成。

----并 聯(lián) 型 共 振 峰 模 型 許 多 研 究 者 認 為, 對 于 鼻 化 元 音 等 非 一 般 元 音 以 及 大 部 分 輔 音, 上 述 級 聯(lián) 型 模 型 不 能 很 好 地 加 以 描 述 和 模 擬, 因 此, 構(gòu) 筑 和 產(chǎn) 生 了 并 聯(lián) 型 共 振 峰 模 型。

----混 合 型 共 振 峰 模 型 在 級 聯(lián) 型 共 振 峰 合 成 模 型 中, 共 振 峰 濾 波 器 首 尾 相 接; 而 在 并 聯(lián) 型 模 型 中, 輸 入 信 號 先 分 別 通 過 幅 度 調(diào) 節(jié) 再 加 到 每 一 個 共 振 峰 濾 波 器 上, 然 后 將 各 路 的 輸 出 疊 加 起 來。 將 兩 者 比 較, 對 于 合 成 聲 源 位 于 聲 道 末 端 的 語 音( 大 多 數(shù) 的 元 音), 級 聯(lián) 型 合 乎 語 音 產(chǎn) 生 的 聲 學 理 論, 并 且 無 需 為 每 一 個 濾 波 器 分 設(shè) 幅 度 調(diào) 節(jié); 而 對 于 合 成 聲 源 位 于 聲 道 中 間 的 語 音( 大 多 數(shù) 清 擦 音 和 塞 音), 并 聯(lián) 型 則 比 較 合 適, 但 是 其 幅 度 調(diào) 節(jié) 很 復(fù) 雜。 基 于 此 種 考 慮, 人 們 將 兩 者 結(jié) 合 在 一 起, 提 出 了 混 和 型 共 振 峰 模 型, 如 圖2 所 示。

----事 實 上, 上 述 三 種 共 振 峰 模 型 在 實 際 中 都 得 到 了 成 功 的 應(yīng) 用。 例 如:Fant 的OVE 系 統(tǒng) 就 采 用 了 級 聯(lián) 型 的 共 振 峰 模 型;Holmes 合 成 器 采 用 的 是 并 聯(lián) 型 的 共 振 峰 模 型; 而 最 為 典 型 也 是 最 為 成 功 的Klatt 合 成 器 則 構(gòu) 筑 在 混 合 型 共 振 峰 模 型 的 基 礎(chǔ) 之 上。

----在 漢 語 語 音 合 成 方 面, 研 究 人 員 研 制 出 了 一 些 基 于 共 振 峰 模 型 的 成 功 的 應(yīng) 用 系 統(tǒng)。 如 社 科 院 語 言 所 的 SIFS 合 成 器、 中 科 院 聲 學 所 的KX 1 系 統(tǒng) 中 基 于Holmes 的 并 聯(lián) 型 共 振 峰 合 成 器 模 型, 而 同 樣 由 中 科 院 聲 學 所 開 發(fā) 的 第 二 代 共 振 峰 合 成 器KX FSS 則 基 于Klatt 合 成 器。

----共 振 峰 模 型 是 基 于 對 聲 道 的 一 種 比 較 準 確 的 模 擬, 因 而 可 以 合 成 出 自 然 度 比 較 高 的 語 音, 另 外 由 于 共 振 峰 參 數(shù) 有 著 明 確 的 物 理 意 義, 直 接 對 應(yīng) 于 聲 道 參 數(shù), 因 此, 可 以 容 易 利 用 共 振 峰 描 述 自 然 語 流 中 的 各 種 現(xiàn) 象, 并 且 總 結(jié) 聲 學 規(guī) 則, 最 終 用 于 共 振 峰 合 成 系 統(tǒng)。

----但 是, 人 們 同 時 也 發(fā) 現(xiàn) 該 技 術(shù) 有 明 顯 的 弱 點。 首 先 由 于 它 是 建 立 在 對 聲 道 的 模 擬 上, 因 此, 對 于 聲 道 模 型 的 不 精 確 勢 必 會 影 響 其 合 成 質(zhì) 量。 另 外, 實 際 工 作 表 明, 共 振 峰 模 型 雖 然 描 述 了 語 音 中 最 基 本 最 主 要 的 部 分, 但 并 不 能 表 征 影 響 語 音 自 然 度 的 其 他 許 多 細 微 的 語 音 成 分, 從 而 影 響 了 合 成 語 音 的 自 然 度。 另 外, 共 振 峰 合 成 器 控 制 十 分 復(fù) 雜, 對 于 一 個 好 的 合 成 器 來 說, 其 控 制 參 數(shù) 往 往 達 到 幾 十 個, 實 現(xiàn) 起 來 十 分 困 難。

----基 于 這 些 原 因, 研 究 者 繼 續(xù) 尋 求 和 發(fā) 現(xiàn) 其 他 新 的 合 成 技 術(shù)。 人 們 從 波 形 的 直 接 錄 制 和 播 放 得 到 啟 發(fā), 提 出 了 基 于 波 形 拼 接 的 合 成 技 術(shù),LPC 合 成 技 術(shù) 和PSOLA 合 成 技 術(shù) 是 其 中 的 代 表。 與 共 振 峰 合 成 技 術(shù) 不 同, 波 形 拼 接 合 成 是 基 于 對 錄 制 的 合 成 基 元 的 波 形 進 行 拼 接, 而 不 是 基 于 對 發(fā) 聲 過 程 的 模 擬。

LPC 參 數(shù) 合 成

----波 形 拼 接 技 術(shù) 的 發(fā) 展 與 語 音 的 編、 解 碼 技 術(shù) 的 發(fā) 展 密 不 可 分, 其 中LPC 技 術(shù)( 線 性 預(yù) 測 編 碼 技 術(shù)) 的 發(fā) 展 對 波 形 拼 接 技 術(shù) 產(chǎn) 生 了 巨 大 的 影 響。

----LPC 合 成 技 術(shù) 本 質(zhì) 上 是 一 種 時 間 波 形 的 編 碼 技 術(shù), 目 的 是 為 了 降 低 時 間 域 信 號 的 傳 輸 速 率。

----對 于 利 用LPC 合 成 技 術(shù) 來 進 行 漢 語 語 音 合 成 和 漢 語 文 語 轉(zhuǎn) 換 的 研 究, 中 科 院 聲 學 所 在 這 方 面 做 了 大 量 的 工 作。1987 年, 他 們 引 進 了 多 脈 沖 激 勵LPC 技 術(shù),1989 年 又 引 入 矢 量 量 化, 之 后,1993 年, 他 們 引 入 碼 激 勵 技 術(shù), 他 們 的 這 些 工 作 對 于LPC 合 成 技 術(shù) 在 漢 語 合 成 方 面 的 運 用 做 出 了 重 要 的 貢 獻。

----LPC 合 成 技 術(shù) 的 優(yōu) 點 是 簡 單 直 觀。 其 合 成 過 程 實 質(zhì) 上 只 是 一 種 簡 單 的 解 碼 和 拼 接 過 程。 另 外, 由 于 波 形 拼 接 技 術(shù) 的 合 成 基 元 是 語 音 的 波 形 數(shù) 據(jù), 保 存 了 語 音 的 全 部 信 息, 因 而 對 于 單 個 合 成 基 元 來 說 能 夠 獲 得 很 高 的 自 然 度。

----但 是, 由 于 自 然 語 流 中 的 語 音 和 孤 立 狀 況 下 的 語 音 有 著 極 大 的 區(qū) 別, 如 果 只 是 簡 單 地 把 各 個 孤 立 的 語 音 生 硬 地 拼 接 在 一 起, 其 整 個 語 流 的 質(zhì) 量 勢 必 是 不 太 理 想 的。 而LPC 技 術(shù) 從 本 質(zhì) 上 來 說 只 是 一 種 錄 音 + 重 放, 對 于 合 成 整 個 連 續(xù) 語 流LPC 合 成 技 術(shù) 的 效 果 是 不 理 想 的。 因 此,LPC 合 成 技 術(shù) 必 須 和 其 他 技 術(shù) 相 結(jié) 合, 才 能 明 顯 改 善LPC 合 成 的 質(zhì) 量。

----一 種 典 型 的 基 于 單 音 節(jié) 和VQLPC( 矢 量 量 化 的LPC) 技 術(shù) 的 文 語 轉(zhuǎn) 換 系 統(tǒng) 原 理 圖 如 圖3 所 示。

PSOLA 合 成 技 術(shù)

----20 世 紀80 年 代 末 提 出 的PSOLA 合 成 技 術(shù)( 基 音 同 步 疊 加 技 術(shù)) 給 波 形 拼 接 合 成 技 術(shù) 注 入 了 新 的 活 力。PSOLA 技 術(shù) 著 眼 于 對 語 音 信 號 超 時 段 特 征 的 控 制, 如 基 頻、 時 長、 音 強 等 的 控 制。 而 這 些 參 數(shù) 對 于 語 音 的 韻 律 控 制 以 及 修 改 是 至 關(guān) 重 要 的, 因 此,PSOLA 技 術(shù) 比LPC 技 術(shù) 具 有 可 修 改 性 更 強 的 優(yōu) 點, 可 以 合 成 出 高 自 然 度 的 語 音。

----PSOLA 技 術(shù) 的 主 要 特 點 是: 在 拼 接 語 音 波 形 片 斷 之 前, 首 先 根 據(jù) 上 下 文 的 要 求, 用PSOLA 算 法 對 拼 接 單 元 的 韻 律 特 征 進 行 調(diào) 整, 使 合 成 波 形 既 保 持 了 原 始 發(fā) 音 的 主 要 音 段 特 征, 又 能 使 拼 接 單 元 的 韻 律 特 征 符 合 上 下 文 的 要 求, 從 而 獲 得 很 高 的 清 晰 度 和 自 然 度。

----如 何 將PSOLA 技 術(shù) 應(yīng) 用 于 漢 語 文 語 轉(zhuǎn) 換 系 統(tǒng), 國 內(nèi) 許 多 學 校 和 科 研 單 位 對 此 進 行 了 大 量 廣 泛 深 入 的 研 究。 清 華 大 學、 北 方 交 大、 中 科 院 聲 學 所 等 在 對PSOLA 技 術(shù) 研 究 的 基 礎(chǔ) 上, 先 后 開 發(fā) 出 了 基 于 波 形 拼 接 的 漢 語 文 語 轉(zhuǎn) 換 系 統(tǒng), 并 且 對 于 如 何 進 一 步 完 善 該 技 術(shù), 如 何 進 一 步 改 善 合 成 語 音 的 自 然 度 等 都 提 出 了 一 些 具 體 措 施。

----PSOLA 技 術(shù) 保 持 了 傳 統(tǒng) 波 形 拼 接 技 術(shù) 的 優(yōu) 點, 簡 單 直 觀, 運 算 量 小, 而 且 還 能 方 便 地 控 制 語 音 信 號 的 韻 律 參 數(shù), 具 有 合 成 自 然 連 續(xù) 語 流 的 條 件, 得 到 了 廣 泛 的 應(yīng) 用。

----但 是,PSOLA 技 術(shù) 也 有 其 缺 點。 首 先, PSOLA 技 術(shù) 是 一 種 基 音 同 步 的 語 音 分 析/ 合 成 技 術(shù), 首 先 需 要 準 確 的 基 因 周 期 以 及 對 其 起 始 點 的 判 定。 基 音 周 期 或 其 起 始 點 的 判 定 誤 差 將 會 影 響PSOLA 技 術(shù) 的 效 果。 其 次,PSOLA 技 術(shù) 是 一 種 簡 單 的 波 形 映 射 拼 接 合 成, 這 種 拼 接 是 否 能 夠 保 持 平 穩(wěn) 過 渡 以 及 它 對 頻 域 參 數(shù) 有 什 么 影 響 等 并 沒 有 得 到 解 決, 因 此, 在 合 成 時 會 產(chǎn) 生 不 理 想 的 結(jié) 果。

LMA 聲 道 模 型

----隨 著 人 們 對 語 音 合 成 的 自 然 度 和 音 質(zhì) 的 要 求 越 來 越 高,PSOLA 算 法 表 現(xiàn) 出 對 韻 律 參 數(shù) 調(diào) 整 能 力 較 弱 和 難 以 處 理 協(xié) 同 發(fā) 音 的 缺 陷, 因 此, 人 們 又 提 出 了 一 種 基 于LMA 聲 道 模 型 的 語 音 合 成 方 法。 這 種 方 法 具 有 傳 統(tǒng) 的 參 數(shù) 合 成 可 以 靈 活 調(diào) 節(jié) 韻 律 參 數(shù) 的 優(yōu) 點, 同 時 又 具 有 比PSOLA 算 法 更 高 的 合 成 音 質(zhì)。

----目 前, 主 要 的 語 音 合 成 技 術(shù) 是 共 振 峰 合 成 技 術(shù) 和 基 于PSOLA 算 法 的 波 形 拼 接 合 成 技 術(shù)。 這 兩 種 技 術(shù) 各 有 所 長, 共 振 峰 技 術(shù) 比 較 成 熟, 有 大 量 的 研 究 成 果 可 以 利 用, 而 PSOLA 技 術(shù) 則 是 比 較 新 的 技 術(shù), 具 有 良 好 的 發(fā) 展 前 景。

----過 去 這 兩 種 技 術(shù) 基 本 上 是 互 相 獨 立 發(fā) 展 的, 現(xiàn) 在 許 多 學 者 開 始 研 究 它 們 兩 者 之 間 的 關(guān) 系, 試 圖 將 兩 者 有 效 地 結(jié) 合 起 來, 從 而 合 成 出 更 加 自 然 的 語 流。 例 如 清 華 大 學 的 研 究 人 員 進 行 了 將 共 振 峰 修 改 技 術(shù) 應(yīng) 用 于PSOLA 算 法 的 研 究, 并 用 于Sonic 系 統(tǒng) 的 改 進, 研 制 出 了 具 有 更 高 自 然 度 的 漢 語 文 語 轉(zhuǎn) 換 系 統(tǒng)。

 



相關(guān)鏈接:
語音合成——燦爛的前景 巨大的商機 2002-01-30
語音合成技術(shù)及國內(nèi)外發(fā)展現(xiàn)狀 2002-01-30
Evoice有聲電子郵件系統(tǒng) 2002-01-30
語音合成系統(tǒng)的關(guān)鍵技術(shù) 2002-01-30
語音合成技術(shù)應(yīng)用實例 2002-01-30

分類信息:     技術(shù)_語音合成_文摘