自然語言處理綜論（第二版）


	從本書第一版出版以來，一直好評如潮，被國外許多大學選作自然語言處理或計算語言學的教材，被認為該領域教材的“黃金標準”。本書第一版綜合了自然語言處理、計算語言學和語音辨識的內容，全面論述電腦自然語言處理，深入探討電腦處理自然語言的詞彙、句法、語義、語用等各個方面的問題，介紹了自然語言處理的各種現代技術。該版對於第一版做了全面的改寫，增加了大量反映自然語言處理最新成就的內容，特別是增加了語音處理和統計技術方面的內容，全書面貌為之一新。本書四大特色：覆蓋全面強調實用注重評測語料為本內容簡介本書全面論述了自然語言處理技術。本書在第一版的基礎上增加了自然語言處理的最新成就，特別是增加了語音處理和統計技術方面的內容，全書面貌為之一新。本書共分五個部分。第一部分“詞彙的電腦處理”，講述單詞的電腦處理，包括單詞切分、單詞的形態學、最小編輯距離、詞類，以及單詞計算機處理的各種演算法，包括規則運算式、有限狀態自動機、有限狀態轉錄機、N元語法模型、隱瑪律可夫模型、最大熵模型等。第二部分“語音的電腦處理”，介紹語音學、語音合成、語音自動識別以及計算音系學。第三部分“句法的電腦處理”，介紹英語的形式語法，講述句法剖析的主要演算法，包括CKY剖析演算法、Earley剖析演算法、統計剖析，並介紹合一與類型特徵結構、Chomsky層級分類、抽吸引理等分析工具。第四部分“語義和語用的電腦處理”，介紹語義的各種表示方法、計算語義學、詞彙語義學、計算詞彙語義學，並介紹同指、連貫等電腦話語分析問題。第五部分“應用”，講述資訊抽取、問答系統、自動文摘、對話和會話智慧代理、機器翻譯等自然語言處理的應用技術。本書寫作風格深入淺出，實例豐富，引人入勝。本書可作為高等學校自然語言處理或計算語言學的本科生和研究生的教材，也可以作為從事人工智慧、自然語言處理等領域的研究人員和技術人員的必備參考。



	購買中國簡體書籍請注意： 1. 因裝幀品質及貨運條件未臻完善，中國簡體書可能有出現磨痕、凹痕、折痕等問題，故簡體字館除封面破損、內頁脫落、缺頁等較嚴重的狀態外，其餘所有商品將正常出貨。


	目錄第1章導論 1.1語音與語言處理中的知識 1.2歧義 1.3模型和演算法 1.4語言、思維和理解 1.5學科現狀與近期發展 1.6語音和語言處理簡史 1.6.1基礎研究：20世紀40年代和20世紀50年代 1.6.2兩個陣營：1957年至1970年 1.6.3四個範型：1970年至1983年 1.6.4經驗主義和有限狀態模型的復蘇：1983年至1993年 1.6.5不同領域的合流：1994年至1999年 1.6.6機器學習的興起：2000年至2008年 1.6.7關於多重發現 1.6.8心理學的簡要注記 1.7小結 1.8文獻和歷史說明第一部分詞彙的電腦處理第2章規則運算式與自動機 2.1規則運算式 2.1.1基本規則運算式模式 2.1.2析取、組合與優先關係 2.1.3一個簡單的例子 2.1.4一個比較複雜的例子 2.1.5高級算符 2.1.6規則運算式中的替換、記憶體與ELIZA 2.2有限狀態自動機 2.2.1用FSA來識別羊的語言 2.2.2形式語言 2.2.3其他例子 2.2.4非確定FSA 2.2.5使用NFSA接收符號串 2.2.6識別就是搜索 2.2.7確定自動機與非確定自動機的關係 2.3正則語言與FSA 2.4小結 2.5文獻和歷史說明第3章詞與轉錄機 3.1英語形態學概觀 3.1.1屈折形態學 3.1.2派生形態學 3.1.3附著 3.1.4非毗連形態學 3.1.5一致關係 3.2有限狀態形態剖析 3.3有限狀態詞表的建造 3.4有限狀態轉錄機 3.4.1定序轉錄機和確定性 3.5用於形態剖析的FST 3.6轉錄機和正詞法規則 3.7把FST詞表與規則相結合 3.8與詞表無關的FST：Porter詞幹處理器 3.9單詞和句子的詞例還原 3.9.1中文的自動切詞 3.10拼寫錯誤的檢查與更正 3.11最小編輯距離 3.12人是怎樣進行形態處理的 3.13小結 3.14文獻和歷史說明第4章N元語法 4.1語料庫中單詞數目的計算 4.2簡單的（非平滑的）N元語法 4.3訓練集和測試集 4.3.1N元語法及其對訓練語料庫的敏感性 4.3.2未知詞：開放詞彙與封閉詞彙 4.4N元語法的評測：困惑度 4.5平滑 4.5.1Laplace平滑 4.5.2GoodTuring打折法 4.5.3GoodTuring估計的一些高級專題 4.6插值法 4.7回退法 4.7.1高級專題：計算Katz回退的α和P* 4.8實際問題：工具包和資料格式 4.9語言模型建模中的高級專題 4.9.1高級的平滑方法：KneserNey平滑法 4.9.2基於類別的N元語法 4.9.3語言模型的自我調整和網路（Web）應用 4.9.4長距離資訊的使用：簡要的綜述 4.10資訊理論背景 4.10.1用於比較模型的交叉熵 4.11高級問題：英語的熵和熵率均衡性 4.12小結 4.13文獻和歷史說明第5章詞類標注 5.1（大多數）英語詞的分類 5.2英語的標記集 5.3詞類標注 5.4基於規則的詞類標注 5.5基於隱瑪律可夫模型的詞類標注 5.5.1計算最可能的標記序列：一個實例 5.5.2隱瑪律可夫標注演算法的形式化 5.5.3使用Viterbi演算法來進行HMM標注 5.5.4把HMM擴充到三元語法 5.6基於轉換的標注 5.6.1怎樣應用TBL規則 5.6.2怎樣學習TBL規則 5.7評測和錯誤分析 5.7.1錯誤分析 5.8詞類標注中的高級專題 5.8.1實際問題：標記的不確定性與詞例還原 5.8.2未知詞 5.8.3其他語言中的詞類標注 5.8.4標注演算法的結合 5.9高級專題：拼寫中的雜訊通道模型 5.9.1上下文錯拼更正 5.10小結 5.11文獻和歷史說明第6章隱瑪律可夫模型與最大熵模型 6.1瑪律可夫鏈 6.2隱瑪律可夫模型 6.3似然度的計算：向前演算法 6.4解碼：Viterbi演算法 6.5HMM的訓練：向前向後演算法 6.6最大熵模型：背景 6.6.1線性回歸 6.6.2邏輯回歸 6.6.3邏輯回歸：分類 6.6.4高級專題：邏輯回歸的訓練 6.7最大熵模型 6.7.1為什麼稱為最大熵 6.8最大熵瑪律可夫模型 6.8.1MEMM的解碼和訓練 6.9小結 6.10文獻和歷史說明第二部分語音的電腦處理第7章語音學 7.1言語語音與語音標音法 7.2發音語音學 7.2.1發音器官 7.2.2輔音：發音部位 7.2.3輔音：發音方法 7.2.4母音 7.2.5音節 7.3音位範疇與發音變異 7.3.1語音特徵 7.3.2語音變異的預測 7.3.3影響語音變異的因素 7.4聲學語音學和信號 7.4.1波 7.4.2語音的聲波 7.4.3頻率與振幅：音高和響度 7.4.4從波形來解釋音子 7.4.5聲譜和頻域 7.4.6聲源濾波器模型 7.5語音資源 7.6高級問題：發音音系學與姿態音系學 7.7小結 7.8文獻和歷史說明第8章語音合成 8.1文本歸一化 8.1.1句子的詞例還原 8.1.2非標準詞 8.1.3同形異義詞的排歧 8.2語音分析 8.2.1查詞典 8.2.2名稱 8.2.3字位—音位轉換 8.3韻律分析 8.3.1韻律的結構 8.3.2韻律的突顯度 8.3.3音調 8.3.4更精巧的模型：ToBI 8.3.5從韻律標記計算音延 8.3.6從韻律標記計算F0 8.3.7文本分析的最後結果：內部表示 8.4雙音子波形合成 8.4.1建立雙音子資料庫的步驟 8.4.2雙音子毗連和用於韻律的TD—PSOLA 8.5單元選擇（波形）合成 8.6評測 8.7文獻和歷史說明第9章語音自動識別 9.1語音辨識的總體結構 9.2隱瑪律可夫模型應用於語音辨識 9.3特徵抽取：MFCC向量 9.3.1預加重 9.3.2加窗 9.3.3離散傅裡葉變換 9.3.4Mel濾波器組和對數 9.3.5倒譜：逆向傅裡葉變換 9.3.6Delta特徵與能量 9.3.7總結：MFCC 9.4聲學似然度的計算 9.4.1向量量化 9.4.2高斯概率密度函數 9.4.3概率、對數概率和距離函數 9.5詞典和語言模型 9.6搜索與解碼 9.7嵌入式訓練 9.8評測：詞錯誤率 9.9小結 9.10文獻和歷史說明第10章語音辨識：高級專題 10.1多遍解碼：N最佳表和格 10.2A*解碼演算法（“棧”解碼演算法） 10.3依賴於上下文的聲學模型：三音子 10.4分辨訓練 10.4.1最大互資訊估計 10.4.2基於後驗分類器的聲學模型 10.5語音變異的建模 10.5.1環境語音變異和雜訊 10.5.2說話人變異和說話人適應 10.5.3發音建模：由於語類的差別而產生的變異 10.6中繼資料：邊界、標點符號和不流利現象 10.7人的語音辨識 10.8小結 10.9文獻和歷史說明第11章計算音系學 11.1有限狀態音系學 11.2高級有限狀態音系學 11.2.1母音和諧 11.2.2範本式形態學 11.3計算優選理論 11.3.1優選理論中的有限狀態轉錄機模型 11.3.2優選理論的隨機模型 11.4音節切分 11.5音位規則和形態規則的機器學習 11.5.1音位規則的機器學習 11.5.2形態規則的機器學習 11.5.3優選理論中的機器學習 11.6小結 11.7文獻和歷史說明第三部分句法的電腦處理第12章英語的形式語法 12.1組成性 12.2上下文無關語法 12.2.1上下文無關語法的形式定義 12.3英語的一些語法規則 12.3.1句子一級的結構 12.3.2子句與句子 12.3.3名詞短語 12.3.4一致關係 12.3.5動詞短語和次範疇化 12.3.6助動詞 12.3.7並列關係 12.4樹庫 12.4.1樹庫的例子：賓州樹庫課題 12.4.2作為語法的樹庫 12.4.3樹庫搜索 12.4.4中心詞與中心詞的發現 12.5語法等價與範式 12.6有限狀態語法和上下文無關語法 12.7依存語法 12.7.1依存和中心詞之間的關係 12.7.2範疇語法 12.8口語的句法 12.8.1不流暢現象與口語修正 12.8.2口語樹庫 12.9語法和人的語言處理 12.10小結 12.11文獻和歷史說明第13章句法剖析 13.1剖析就是搜索 13.1.1自頂向下剖析 13.1.2自底向上剖析 13.1.3自頂向下剖析與自底向上剖析比較 13.2歧義 13.3面對歧義的搜索 13.4動態規劃剖析方法 13.4.1CKY剖析 13.4.2Earley演算法 13.4.3線圖剖析 13.5局部剖析 13.5.1基於規則的有限狀態組塊分析 13.5.2基於機器學習的組塊分析方法 13.5.3組塊分析系統的評測 13.6小結 13.7文獻和歷史說明第14章統計剖析 14.1概率上下文無關語法 14.1.1PCFG用於排歧 14.1.2PCFG用於語言建模 14.2PCFG的概率CKY剖析 14.3PCFG規則概率的學習途徑 14.4PCFG的問題 14.4.1獨立性假設忽略了規則之間的結構依存關係 14.4.2缺乏對詞彙依存關係的敏感性 14.5使用分離非終極符號的辦法來改進PCFG 14.6概率詞彙化的CFG 14.6.1Collins剖析器 14.6.2高級問題：Collins剖析器更多的細節 14.7剖析器的評測 14.8高級問題：分辨再排序 14.9高級問題：基於剖析器的語言模型 14.10人的剖析 14.11小結 14.12文獻和歷史說明第15章特徵與合一 15.1特徵結構 15.2特徵結構的合一 15.3語法中的特徵結構 15.3.1一致關係 15.3.2中心語特徵 15.3.3次範疇化 15.3.4長距離依存關係 15.4合一的實現 15.4.1合一的資料結構 15.4.2合一演算法 15.5帶有合一約束的剖析 15.5.1把合一結合到Earley剖析器中 15.5.2基於合一的剖析 15.6類型與繼承 15.6.1高級問題：類型的擴充 15.6.2合一的其他擴充 15.7小結 15.8文獻和歷史說明第16章語言和複雜性 16.1Chomsky層級 16.2怎麼判斷一種語言不是正則的 16.2.1抽吸引理 16.2.2證明各種自然語言不是正則語言 16.3自然語言是上下文無關的嗎 16.4計算複雜性和人的語言處理 16.5小結 16.6文獻和歷史說明第四部分語義和語用的電腦處理第17章意義的表示 17.1意義表示的計算要求 17.1.1可驗證性 17.1.2無歧義性 17.1.3規範形式 17.1.4推理與變數 17.1.5表達能力 17.2模型論語義學 17.3一階邏輯 17.3.1一階邏輯基礎 17.3.2變數和量詞 17.3.3λ標記法 17.3.4一階邏輯的語義 17.3.5推理 17.4事件與狀態的表示 17.4.1時間表示 17.4.2體 17.5描述邏輯 17.6意義的具體化與情境表示方法 17.7小結 17.8文獻和歷史說明第18章計算語義學 18.1句法驅動的語義分析 18.2句法規則的語義擴充 18.3量詞轄域歧義及非確定性 18.3.1存儲與檢索方法 18.3.2基於約束的方法 18.4基於合一的語義分析方法 18.5語義與Earley分析器的集成 18.6成語和組成性 18.7小結 18.8文獻和歷史說明第19章詞彙語義學 19.1詞義 19.2含義間的關係 19.2.1同義關係和反義關係 19.2.2上下位關係 19.2.3語義場 19.3WordNet：詞彙關係資訊庫 19.4事件參與者 19.4.1題旨角色 19.4.2因素交替（DiathesisAlternations） 19.4.3題旨角色的問題 19.4.4命題庫 19.4.5FrameNet 19.4.6選擇限制 19.5基元分解 19.6高級問題：隱喻 19.7小結 19.8文獻和歷史說明第20章計算詞彙語義學 20.1詞義排歧：綜述 20.2有監督詞義排歧 20.2.1監督學習的特徵抽取 20.2.2樸素貝葉斯分類器和決策表分類器 20.3WSD評價方法、基準線和上限 20.4WSD：字典方法和同義詞庫方法 20.4.1Lesk演算法 20.4.2選擇限制和選擇優先度 20.5最低限度的監督WSD：自舉法 20.6詞語相似度：語義字典方法 20.7詞語相似度：分佈方法 20.7.1定義詞語的共現向量 20.7.2度量與上下文的聯繫 20.7.3定義兩個向量之間的相似度 20.7.4評價分散式詞語相似度 20.8下位關係和其他詞語關係 20.9語義角色標注 20.10高級主題：無監督語義排歧 20.11小結 20.12文獻和歷史說明第21章計算話語學 21.1話語分割 21.1.1無監督話語分割 21.1.2有監督話語分割 21.1.3話語分割的評價 21.2文本連貫性 21.2.1修辭結構理論 21.2.2自動連貫指派 21.3指代消解 21.4指代現象 21.4.1指示語的五種類型 21.4.2資訊狀態 21.5代詞指代消解所使用的特徵 21.5.1用來過濾潛在指代物件的特徵 21.5.2代詞解釋中的優先關係 21.6指代消解的三種演算法 21.6.1代詞指代基準系統：Hobbs演算法 21.6.2指代消解的中心演算法 21.6.3代詞指代消解的對數線性模型 21.6.4代詞指代消解的特徵 21.7共指消解 21.8共指消解的評價 21.9高級問題：基於推理的連貫判定 21.10所指的心理語言學研究 21.11小結 21.12文獻和歷史說明第五部分應用第22章信息抽取 22.1命名實體識別 22.1.1命名實體識別中的歧義 22.1.2基於序列標注的命名實體識別 22.1.3命名實體識別的評價 22.1.4實用NER架構 22.2關係識別和分類 22.2.1用於關係分析的有監督學習方法 22.2.2用於關係分析的弱監督學習方法 22.2.3關係分析系統的評價 22.3時間和事件處理 22.3.1時間運算式的識別 22.3.2時間的歸一化 22.3.3事件檢測和分析 22.3.4TimeBank 22.4範本填充 22.4.1範本填充的統計方法 22.4.2有限狀態機範本填充系統 22.5高級話題：生物醫學資訊的抽取 22.5.1生物學命名實體識別 22.5.2基因歸一化 22.5.3生物學角色和關係 22.6小結 22.7文獻和歷史說明第23章問答和摘要 23.1資訊檢索 23.1.1向量空間模型 23.1.2詞語權重計算 23.1.3詞語選擇和建立 23.1.4資訊檢索系統的評測 23.1.5同形關係、多義關係和同義關係 23.1.6改進用戶查詢的方法 23.2事實性問答 23.2.1問題處理 23.2.2段落檢索 23.2.3答案處理 23.2.4事實性答案的評價 23.3摘要 23.4單文檔摘要 23.4.1無監督的內容選擇 23.4.2基於修辭分析的無監督摘要 23.4.3有監督的內容選擇 23.4.4句子簡化 23.5多文檔摘要 23.5.1多文檔摘要的內容選擇 23.5.2多文檔摘要的資訊排序 23.6主題摘要和問答 23.7摘要的評價 23.8小結 23.9文獻和歷史說明第24章對話與會話智慧代理 24.1人類會話的屬性 24.1.1話輪和話輪轉換 24.1.2語言作為行動：言語行為 24.1.3語言作為共同行動：對話的共同基礎 24.1.4會話結構 24.1.5會話隱含 24.2基本的對話系統 24.2.1ASR組件 24.2.2NLU組件 24.2.3生成和TTS組件 24.2.4對話管理器 24.2.5錯誤處理：確認和拒絕 24.3VoiceXML 24.4對話系統的設計和評價 24.4.1設計對話系統 24.4.2評價對話系統 24.5資訊狀態和對話行為 24.5.1使用對話行為 24.5.2解釋對話行為 24.5.3檢測糾正行為 24.5.4生成對話行為：確認和拒絕 24.6瑪律可夫決策過程架構 24.7高級問題：基於規劃的對話行為 24.7.1規劃推理解釋和生成 24.7.2對話的意圖結構 24.8小結 24.9文獻和歷史說明第25章機器翻譯 25.1為什麼機器翻譯如此困難 25.1.1類型學 25.1.2其他的結構差異 25.1.3詞彙的差異 25.2經典的機器翻譯方法與Vauquois三角形 25.2.1直接翻譯 25.2.2轉換方法 25.2.3傳統機器翻譯系統中的直接和轉換相融合的方法 25.2.4中間語言的思想：使用意義 25.3統計機器翻譯 25.4P（F\|E）：基於短語的翻譯模型 25.5翻譯中的對齊 25.5.1IBM模型1 25.5.2HMM對齊 25.6對齊模型的訓練 25.6.1訓練對齊模型的EM演算法 25.7用於基於短語機器翻譯的對稱對齊 25.8基於短語統計機器翻譯的解碼 25.9機器翻譯評價 25.9.1使用人工評價者 25.9.2自動評價：BLEU 25.10高級問題：機器翻譯的句法模型 25.11高級問題：IBM模型3和繁衍度 25.11.1模型3的訓練 25.12高級問題：機器翻譯的對數線性模型 25.13小結 25.14文獻和歷史說明參考文獻