Python自然語言處理實戰：核心技術與演算法


	這是一本自然語言處理理論和實踐完美結合的教材。讀者在瞭解自然語言處理全貌的同時，可以根據本書的一些實踐案例快速上手並應用於自己的項目中。作者結合自己的實踐經驗，重點介紹了真實場景下快速構建一些自然語言處理專案所需的技能，並提供了一些工具推薦或演算法實現。本書著眼于實際應用場景，主要介紹了分詞、詞性標注和名實體識別、句法分析等基本技術，並通過剖析近年來在自然語言處理領域大放光彩的深度學習技術，力求快速地帶領讀者入門自然語言處理。作者在後還通過在大資料平臺上的實戰專案，完整呈現了真實場景下自然語言處理專案的整個環節，以供讀者參考。



	購買中國簡體書籍請注意： 1. 因裝幀品質及貨運條件未臻完善，中國簡體書可能有出現磨痕、凹痕、折痕等問題，故簡體字館除封面破損、內頁脫落、缺頁等較嚴重的狀態外，其餘所有商品將正常出貨。


	目錄序一序二前言第1章NLP基礎1 1.1什麼是NLP1 1.1.1NLP的概念1 1.1.2NLP的研究任務3 1.2NLP的發展歷程5 1.3NLP相關知識的構成7 1.3.1基本術語7 1.3.2知識結構9 1.4語料庫10 1.5探討NLP的幾個層面11 1.6NLP與人工智慧13 1.7本章小結15 第2章NLP前置技術解析16 2.1搭建Python開發環境16 2.1.1Python的科學計算發行版本——Anaconda17 2.1.2Anaconda的下載與安裝19 2.2規則運算式在NLP的基本應用21 2.2.1匹配字串22 2.2.2使用轉義符26 2.2.3抽取文本中的數位26 2.3Numpy使用詳解27 2.3.1創建陣列28 2.3.2獲取Numpy中陣列的維度30 2.3.3獲取本地資料31 2.3.4正確讀取資料32 2.3.5Numpy陣列索引32 2.3.6切片33 2.3.7陣列比較33 2.3.8替代值34 2.3.9資料類型轉換36 2.3.10Numpy的統計計算方法36 2.4本章小結37 第3章中文分詞技術38 3.1中文分詞簡介38 3.2規則分詞39 3.2.1正向最大匹配法39 3.2.2逆向最大匹配法40 3.2.3雙向最大匹配法41 3.3統計分詞42 3.3.1語言模型43 3.3.2HMM模型44 3.3.3其他統計分詞演算法52 3.4混合分詞52 3.5中文分詞工具——Jieba53 3.5.1Jieba的三種分詞模式54 3.5.2實戰之高頻詞提取55 3.6本章小結58 第4章詞性標注與命名實體識別59 4.1詞性標注59 4.1.1詞性標注簡介59 4.1.2詞性標注規範60 4.1.3Jieba分詞中的詞性標注61 4.2命名實體識別63 4.2.1命名實體識別簡介63 4.2.2基於條件隨機場的命名實體識別65 4.2.3實戰一：日期識別69 4.2.4實戰二：地名識別75 4.3總結84 第5章關鍵字提取演算法85 5.1關鍵字提取技術概述85 5.2關鍵字提取演算法TF／IDF演算法86 5.3TextRank演算法88 5.4LSA／LSI／LDA演算法91 5.4.1LSA／LSI演算法93 5.4.2LDA演算法94 5.5實戰提取文本關鍵字95 5.6本章小結105 第6章句法分析106 6.1句法分析概述106 6.2句法分析的資料集與評測方法107 6.2.1句法分析的資料集108 6.2.2句法分析的評測方法109 6.3句法分析的常用方法109 6.3.1基於PCFG的句法分析110 6.3.2基於最大間隔瑪律可夫網路的句法分析112 6.3.3基於CRF的句法分析113 6.3.4基於移進–歸約的句法分析模型113 6.4使用StanfordParser的PCFG演算法進行句法分析115 6.4.1StanfordParser115 6.4.2基於PCFG的中文句法分析實戰116 6.5本章小結119 第7章文本向量化120 7.1文本向量化概述120 7.2向量化演算法word2vec121 7.2.1神經網路語言模型122 7.2.2C&W模型124 7.2.3CBOW模型和Skip—gram模型125 7.3向量化演算法doc2vec／str2vec127 7.4案例：將網頁文本向量化129 7.4.1詞向量的訓練129 7.4.2段落向量的訓練133 7.4.3利用word2vec和doc2vec計算網頁相似度134 7.5本章小結139 第8章情感分析技術140 8.1情感分析的應用141 8.2情感分析的基本方法142 8.2.1詞法分析143 8.2.2機器學習方法144 8.2.3混合分析144 8.3實戰電影評論情感分析145 8.3.1卷積神經網路146 8.3.2迴圈神經網路147 8.3.3長短時記憶網路148 8.3.4載入數據150 8.3.5輔助函數154 8.3.6模型設置155 8.3.7調參配置158 8.3.8訓練過程159 8.4本章小結159 第9章NLP中用到的機器學習演算法160 9.1簡介160 9.1.1機器學習訓練的要素161 9.1.2機器學習的組成部分162 9.2幾種常用的機器學習方法166 9.2.1文本分類166 9.2.2特徵提取168 9.2.3標注169 9.2.4搜索與排序170 9.2.5推薦系統170 9.2.6序列學習172 9.3分類器方法173 9.3.1樸素貝葉斯NaiveBayesian173 9.3.2邏輯回歸174 9.3.3支持向量機175 9.4無監督學習的文本聚類177 9.5文本分類實戰：中文垃圾郵件分類180 9.5.1實現代碼180 9.5.2評價指標187 9.6文本聚類實戰：用K—means對豆瓣讀書數據聚類190 9.7本章小結194 第10章基於深度學習的NLP演算法195 10.1深度學習概述195 10.1.1神經元模型196 10.1.2啟動函數197 10.1.3感知機與多層網路198 10.2神經網路模型201 10.3多輸出層模型203 10.4反向傳播演算法204 10.5最優化演算法208 10.5.1梯度下降208 10.5.2隨機梯度下降209 10.5.3批量梯度下降210 10.6丟棄法211 10.7啟動函數211 10.7.1tanh函數212 10.7.2ReLU函數212 10.8實現BP演算法213 10.9詞嵌入演算法216 10.9.1詞向量217 10.9.2word2vec簡介217 10.9.3詞向量模型220 10.9.4CBOW和Skip—gram模型222 10.10訓練詞向量實踐224 10.11樸素Vanilla—RNN227 10.12LSTM網路230 10.12.1LSTM基本結構230 10.12.2其他LSTM變種形式234 10.13Attention機制236 10.13.1文本翻譯237 10.13.2圖說模型237 10.13.3語音辨識239 10.13.4文本摘要239 10.14Seq2Seq模型240 10.15圖說模型242 10.16深度學習平臺244 10.16.1Tensorflow245 10.16.2Mxnet246 10.16.3PyTorch246 10.16.4Caffe247 10.16.5Theano247 10.17實戰Seq2Seq問答機器人248 10.18本章小結254 第11章Solr搜尋引擎256 11.1全文檢索的原理257 11.2Solr簡介與部署258 11.3Solr後臺管理描述263 11.4配置schema267 11.5Solr管理索引庫270 11.5.1創建索引270 11.5.2查詢索引276 11.5.3刪除文檔279 11.6本章小結281


	塗銘，阿裡巴巴資料架構師，對大資料、自然語言處理、Python、Java相關技術有深入的研究，積累了豐富的實踐經驗。曾就職於北京明略資料，是大數據方面的高級諮詢顧問。在工業領域參與了設備故障診斷專案，在零售行業參與了精准行銷項目。在自然語言處理方面，擔任導購機器人專案的架構師，主導開發機器人的語義理解、短文本相似度匹配、上下文理解，以及通過自然語言檢索產品庫，在專案中構建了NoSQL+文本檢索等大資料架構，同時也負責問答對的整理和商品屬性的提取，帶領NLP團隊構建語義解析層。劉祥，百煉智慧自然語言處理專家，主要研究知識圖譜、NLG等前沿技術，參與機器自動寫作產品的研發與設計。曾在明略資料擔當資料技術合夥人兼資料科學家，負責工業、金融等業務領域的資料採擷工作，在這些領域構建了諸如故障診斷、關聯帳戶分析、新聞推薦、商品推薦等模型。酷愛新技術，活躍於開源社區，是SparkMLlib和Zeppelin的Contributor。劉樹春，七牛雲高級演算法專家，七牛Al實驗室NLP＆OCR方向負責人，主要負責七牛NLP以及OCR相關項目的研究與落地。在七牛人工智慧實驗室工作期間，參與大量NLP相關專案，例如知識圖譜、問答系統、文本摘要、語音相關系統等；同時重點關注NLP與cv的交叉研究領域，主要包括視覺問答（VQA），圖像標注（ImageCaption）等前沿問題。曾在IntelDCSG資料與雲計算部門從事機器學習與雲平臺的融合開發，專案獲得IDF大獎。碩士就讀于華東師範大學機器學習實驗室，在校期間主攻機器學習、機器視覺、影像處理，並在相關國際會議發表多篇SCI／EI論文。