首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品


語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)

北京雙語(yǔ)教育電子有限公司

    語(yǔ) 音 識(shí) 別 技 術(shù) 并 不 是 一 夜 之 間 冒 出 來(lái) 的 神 話, 早 在 三 四 十 年 前, 在 美 國(guó) 的 一 些 大 學(xué) 和 研 究 單 位, 就 已 經(jīng) 有 人 開(kāi) 始 從 事 這 一 方 向 的 研 究, 并 有 一 些 相 關(guān) 論 文 發(fā) 表; 七 十 年 代 前 后, 研 究 的 脈 絡(luò) 日 漸 清 晰, 于 是 貝 爾 實(shí) 驗(yàn) 室 和 國(guó) 際 商 用 機(jī) 器 公 司 (IBM) 等 都 先 后 建 立 了 專 門 的 研 究 機(jī) 構(gòu)。 今 天 這 兩 家 公 司 在 這 一 領(lǐng) 域 都 已 取 得 了 顯 著 的 成 果, 并 且 在 商 業(yè) 上 應(yīng) 用 成 功, 但 貝 爾 實(shí) 驗(yàn) 室 主 要 是 偏 重 于 電 信 方 面 應(yīng) 用 的 語(yǔ) 音 識(shí) 別 系 統(tǒng), 如 電 話 查 詢 等; 而 IBM 則 偏 重 于 商 務(wù) 應(yīng) 用, 因 而 在 連 續(xù) 語(yǔ) 音 識(shí) 別 上 取 得 了 不 小 的 成 功。

    不 談 商 業(yè) 方 面 的 應(yīng) 用, 事 實(shí) 上, 很 多 家 公 司 都 提 供 語(yǔ) 音 識(shí) 別 的 引 擎 (Engine), 并 且 都 表 示 能 支 持 微 軟 的SAPI。 看 一 看 SAPI4.0 SUITE 就 不 難 發(fā) 現(xiàn), 微 軟 在 這 方 面 的 研 究 并 不 遜 于 任 何 一 家 公 司, 只 是 很 奇 怪 它 居 然 沒(méi) 有 將 成 果 商 業(yè) 化。 微 軟 同 時(shí) 提 供 了 一 系 列 引 擎, 如 Speech Recognition ( 語(yǔ) 音 識(shí) 別)、Command & Control ( 發(fā) 布 指 令 并 控 制)、Phone Query ( 電 話 語(yǔ) 音 識(shí) 別)、Text to speech( 文 本 語(yǔ) 音 轉(zhuǎn) 換) 等。

    今 天, 許 多 用 戶 已 經(jīng) 能 享 受 到 語(yǔ) 音 技 術(shù) 的 優(yōu) 勢(shì) 了, 可 以 對(duì) 計(jì) 算 機(jī) 發(fā) 送 命 令, 或 者 要 求 計(jì) 算 機(jī) 記 錄 下 用 戶 所 說(shuō) 的 話, 以 及 將 文 本 轉(zhuǎn) 換 成 聲 音 朗 讀 出 來(lái)。 盡 管 如 此, 距 離 真 正 的 人 機(jī) 自 由 交 流 的 前 景 似 乎 還 遠(yuǎn)。 目 前, 計(jì) 算 機(jī) 還 需 要 對(duì) 用 戶 作 大 量 訓(xùn) 練 才 能 識(shí) 別 用 戶 的 語(yǔ) 音。 并 且, 識(shí) 別 率 也 并 不 總 是 盡 如 人 意。 換 言 之, 語(yǔ) 音 識(shí) 別 技 術(shù) 還 有 一 段 路 需 要 走, 要 做 到 真 正 成 功 的 商 業(yè) 化, 它 還 必 須 在 很 多 方 面 取 得 突 破 性 進(jìn) 展, 這 實(shí) 際 就 是 其 技 術(shù) 的 未 來(lái) 走 向。

    1、 就 算 法 模 型 方 面 而 言, 需 要 有 進(jìn) 一 步 的 突 破。 目 前 能 看 出 它 的 一 些 明 顯 不 足, 尤 其 在 中 文 語(yǔ) 音 識(shí) 別 方 面, 語(yǔ) 言 模 型 還 有 待 完 善, 因 為 語(yǔ) 言 模 型 和 聲 學(xué) 模 型 正 是 聽(tīng) 寫 識(shí) 別 的 基 礎(chǔ), 這 方 面 沒(méi) 有 突 破, 語(yǔ) 音 識(shí) 別 的 進(jìn) 展 就 只 能 是 一 句 空 話。 目 前 使 用 的 語(yǔ) 言 模 型 只 是 一 種 概 率 模 型, 還 沒(méi) 有 用 到 以 語(yǔ) 言 學(xué) 為 基 礎(chǔ) 的 文 法 模 型, 而 要 使 計(jì) 算 機(jī) 確 實(shí) 理 解 人 類 的 語(yǔ) 言, 就 必 須 在 這 一 點(diǎn) 上 取 得 進(jìn) 展, 這 是 一 個(gè) 相 當(dāng) 艱 苦 的 工 作。 此 外, 隨 著 硬 件 資 源 的 不 斷 發(fā) 展, 一 些 核 心 算 法 如 特 征 提 取、 搜 索 算 法 或 者 自 適 應(yīng) 算 法 將 有 可 能 進(jìn) 一 步 改 進(jìn)。 可 以 相 信, 半 導(dǎo) 體 和 軟 件 技 術(shù) 的 共 同 進(jìn) 步 將 為 語(yǔ) 音 識(shí) 別 技 術(shù) 的 基 礎(chǔ) 性 工 作 帶 來(lái) 福 音。

    2、 就 自 適 應(yīng) 方 面 而 言, 語(yǔ) 音 識(shí) 別 技 術(shù) 也 有 待 進(jìn) 一 步 改 進(jìn)。 目 前, 象 IBM 的 ViaVoice 和 Asiaworks 的 SPK 都 需 要 用 戶 在 使 用 前 進(jìn) 行 幾 百 句 話 的 訓(xùn) 練, 以 讓 計(jì) 算 機(jī) 適 應(yīng) 你 的 聲 音 特 征。 這 必 然 限 制 了 語(yǔ) 音 識(shí) 別 技 術(shù) 的 進(jìn) 一 步 應(yīng) 用, 大 量 的 訓(xùn) 練 不 僅 讓 用 戶 感 到 厭 煩, 而 且 加 大 了 系 統(tǒng) 的 負(fù) 擔(dān)。 并 且, 不 能 指 望 將 來(lái) 的 消 費(fèi) 電 子 應(yīng) 用 產(chǎn) 品 也 針 對(duì) 單 個(gè) 消 費(fèi) 者 進(jìn) 行 訓(xùn) 練。 因 此, 必 須 在 自 適 應(yīng) 方 面 有 進(jìn) 一 步 的 提 高, 做 到 不 受 特 定 人、 口 音 或 者 方 言 的 影 響, 這 實(shí) 際 上 也 意 味 著 對(duì) 語(yǔ) 言 模 型 的 進(jìn) 一 步 改 進(jìn)。 現(xiàn) 實(shí) 世 界 的 用 戶 類 型 是 多 種 多 樣 的, 就 聲 音 特 征 來(lái) 講 有 男 音、 女 音 和 童 音 的 區(qū) 別, 此 外, 許 多 人 的 發(fā) 音 離 標(biāo) 準(zhǔn) 發(fā) 音 差 距 甚 遠(yuǎn), 這 就 涉 及 到 對(duì) 口 音 或 方 言 的 處 理。 如 果 語(yǔ) 音 識(shí) 別 能 做 到 自 動(dòng) 適 應(yīng) 大 多 數(shù) 人 的 聲 線 特 征, 那 可 能 比 提 高 一 二 個(gè) 百 分 點(diǎn) 識(shí) 別 率 更 重 要。 事 實(shí) 上,ViaVoice 的 應(yīng) 用 前 景 也 因 為 這 一 點(diǎn) 打 了 折 扣, 只 有 普 通 話 說(shuō) 得 很 好 的 用 戶 才 可 以 在 其 中 文 版 連 續(xù) 語(yǔ) 音 識(shí) 別 方 面 取 得 相 對(duì) 滿 意 的 成 績(jī)。

    3、 就 強(qiáng) 健 性 方 面 而 言, 語(yǔ) 音 識(shí) 別 技 術(shù) 需 要 能 排 除 各 種 環(huán) 境 因 素 的 影 響。 目 前, 對(duì) 語(yǔ) 音 識(shí) 別 效 果 影 響 最 大 的 就 是 環(huán) 境 雜 音 或 嗓 音, 在 公 共 場(chǎng) 合, 你 幾 乎 不 可 能 指 望 計(jì) 算 機(jī) 能 聽(tīng) 懂 你 的 話, 來(lái) 自 四 面 八 方 的 聲 音 讓 它 茫 然 而 不 知 所 措。 很 顯 然 這 極 大 地 限 制 了 語(yǔ) 音 技 術(shù) 的 應(yīng) 用 范 圍, 目 前, 要 在 嘈 雜 環(huán) 境 中 使 用 語(yǔ) 音 識(shí) 別 技 術(shù) 必 須 有 特 殊 的 抗 嗓 (Noise Cancellation) 麥 克 風(fēng) 才 能 進(jìn) 行, 這 對(duì) 多 數(shù) 用 戶 來(lái) 說(shuō) 是 不 現(xiàn) 實(shí) 的。 在 公 共 場(chǎng) 合 中, 個(gè) 人 能 有 意 識(shí) 地 摒 棄 環(huán) 境 嗓 音 并 從 中 獲 取 自 己 所 需 要 的 特 定 聲 音, 如 何 讓 語(yǔ) 音 識(shí) 別 技 術(shù) 也 能 達(dá) 成 這 一 點(diǎn) 呢 ? 這 的 確 是 一 個(gè) 艱 巨 的 任 務(wù)。

    此 外, 帶 寬 問(wèn) 題 也 可 能 影 響 語(yǔ) 音 的 有 效 傳 送, 在 速 率 低 于 1000 比 特/ 秒 的 極 低 比 特 率 下, 語(yǔ) 音 編 碼 的 研 究 將 大 大 有 別 于 正 常 情 況, 比 如 要 在 某 些 帶 寬 特 別 窄 的 信 道 上 傳 輸 語(yǔ) 音, 以 及 水 聲 通 信、 地 下 通 信、 戰(zhàn) 略 及 保 密 話 音 通 信 等, 要 在 這 些 情 況 下 實(shí) 現(xiàn) 有 效 的 語(yǔ) 音 識(shí) 別, 就 必 須 處 理 聲 音 信 號(hào) 的 特 殊 特 征, 如 因 為 帶 寬 而 延 遲 或 減 損 等。 語(yǔ) 音 識(shí) 別 技 術(shù) 要 進(jìn) 一 步 應(yīng) 用, 就 必 須 在 強(qiáng) 健 性 方 面 有 大 的 突 破。

    4、 多 語(yǔ) 言 混 合 識(shí) 別 以 及 無(wú) 限 詞 匯 識(shí) 別 方 面: 簡(jiǎn) 單 地 說(shuō), 目 前 使 用 的 聲 學(xué) 模 型 和 語(yǔ) 音 模 型 太 過(guò) 于 局 限, 以 至 用 戶 只 能 使 用 特 定 語(yǔ) 音 進(jìn) 行 特 定 詞 匯 的 識(shí) 別。 如 果 突 然 從 中 文 轉(zhuǎn) 為 英 文, 或 者 法 文、 俄 文, 計(jì) 算 機(jī) 就 會(huì) 不 知 如 何 反 應(yīng), 而 給 出 一 堆 不 知 所 云 的 句 子; 或 者 用 戶 偶 爾 使 用 了 某 個(gè) 專 門 領(lǐng) 域 的 專 業(yè) 術(shù) 語(yǔ), 如" 信 噪 比" 等, 可 能 也 會(huì) 得 到 奇 怪 的 反 應(yīng)。 這 一 方 面 是 由 于 模 型 的 局 限, 另 一 方 面 也 受 限 于 硬 件 資 源。 隨 著 兩 方 面 的 技 術(shù) 的 進(jìn) 步, 將 來(lái) 的 語(yǔ) 音 和 聲 學(xué) 模 型 可 能 會(huì) 做 到 將 多 種 語(yǔ) 言 混 合 納 入, 用 戶 因 此 就 可 以 不 必 在 語(yǔ) 種 之 間 來(lái) 回 切 換。 此 外, 對(duì) 于 聲 學(xué) 模 型 的 進(jìn) 一 步 改 進(jìn), 以 及 以 語(yǔ) 義 學(xué) 為 基 礎(chǔ) 的 語(yǔ) 言 模 型 的 改 進(jìn), 也 能 幫 助 用 戶 盡 可 能 少 或 不 受 詞 匯 的 影 響, 從 而 可 實(shí) 行 無(wú) 限 詞 匯 識(shí) 別。

    5、 多 語(yǔ) 種 交 流 系 統(tǒng) 的 應(yīng) 用: 最 終, 語(yǔ) 音 識(shí) 別 是 要 進(jìn) 一 步 拓 展 我 們 的 交 流 空 間, 讓 我 們 能 更 加 自 由 地 面 對(duì) 這 個(gè) 世 界。 可 以 想 見(jiàn), 如 果 語(yǔ) 音 識(shí) 別 技 術(shù) 在 上 述 幾 個(gè) 方 面 確 實(shí) 取 得 了 突 破 性 進(jìn) 展, 那 么 多 語(yǔ) 種 交 流 系 統(tǒng) 的 出 現(xiàn) 就 是 順 理 成 章 的 事 情, 這 將 是 語(yǔ) 音 識(shí) 技 術(shù)、 機(jī) 器 翻 譯 技 術(shù) 以 及 語(yǔ) 音 合 成 技 術(shù) 的 完 美 結(jié) 合, 而 如 果 硬 件 技 術(shù) 的 發(fā) 展 能 將 這 些 算 法 進(jìn) 而 固 化 到 更 為 細(xì) 小 的 芯 片, 比 如 手 持 移 動(dòng) 設(shè) 備 上, 那 么 個(gè) 人 就 可 以 帶 著 這 種 設(shè) 備 周 游 世 界 而 無(wú) 需 擔(dān) 心 任 何 交 流 的 困 難, 你 說(shuō) 出 你 想 表 達(dá) 的 意 思, 手 持 設(shè) 備 同 時(shí) 識(shí) 別 并 將 它 翻 譯 成 對(duì) 方 的 語(yǔ) 言, 然 后 合 成 并 發(fā) 送 出 去; 同 時(shí) 接 聽(tīng) 對(duì) 方 的 語(yǔ) 言, 識(shí) 別 并 翻 譯 成 已 方 的 語(yǔ) 言, 合 成 后 朗 讀 給 你 聽(tīng), 所 有 這 一 切 幾 乎 都 是 同 時(shí) 進(jìn) 行 的, 只 是 機(jī) 器 充 當(dāng) 著 主 角。


    任 何 技 術(shù) 的 進(jìn) 步 都 是 為 了 更 進(jìn) 一 步 拓 展 我 們 人 類 的 生 存 和 交 流 空 間, 以 使 我 們 獲 得 更 大 的 自 由, 就 服 務(wù) 于 人 類 而 言, 這 一 點(diǎn) 顯 然 也 是 語(yǔ) 音 識(shí) 別 技 術(shù) 的 發(fā) 展 方 向, 而 為 了 達(dá) 成 這 一 點(diǎn), 它 還 需 要 在 上 述 幾 個(gè) 方 面 取 得 突 破 性 進(jìn) 展, 要 實(shí) 現(xiàn) 這 一 點(diǎn),Intel 架 構(gòu) 平 臺(tái) 的 性 能 進(jìn) 步 也 是 一 個(gè) 關(guān) 鍵 的 因 素, 最 終, 多 語(yǔ) 種 自 由 交 流 系 統(tǒng) 將 帶 給 我 們 全 新 的 生 活 空 間。

 



相關(guān)鏈接:
主要語(yǔ)音引擎及開(kāi)發(fā)工具 2002-01-30
聲揚(yáng)語(yǔ)音識(shí)別系列開(kāi)發(fā)工具 2002-01-30
ASR:“說(shuō)得出做得到” 2002-01-30
IBM ViaVoice語(yǔ)音軟件開(kāi)發(fā)工具 2002-01-30
語(yǔ)音識(shí)別的應(yīng)用前景 2002-01-30

分類信息:     技術(shù)_語(yǔ)音識(shí)別_文摘