1.目錄 1編程和數(shù)據(jù)科學(xué)——一個(gè)新的工具集1 什么是數(shù)據(jù)科學(xué)1 數(shù)據(jù)科學(xué)會(huì)長(zhǎng)期存在嗎?2 為什么數(shù)據(jù)科學(xué)正在興起?3 數(shù)據(jù)科學(xué)與開發(fā)人員有什么關(guān)系?4 將這些概念付諸實(shí)踐5 深入研究一個(gè)具體的示例6 數(shù)據(jù)管道藍(lán)圖7 數(shù)據(jù)科學(xué)家應(yīng)該具備什么技能?9 IBM Watson Deep QA10 回到Twitter帶#標(biāo)簽的情感分析項(xiàng)目13 從構(gòu)建第一條企業(yè)級(jí)數(shù)據(jù)管道中汲取的經(jīng)驗(yàn)教訓(xùn)15 數(shù)據(jù)科學(xué)策略16 Jupyter Notebook是我們的戰(zhàn)略核心18 為什么Notebook這么流行?19 本章小結(jié)21 2Python和Jupyter Notebook為數(shù)據(jù)分析提供動(dòng)力23 為什么選擇Python?23 PixieDust入門27 SampleData——一個(gè)用于加載數(shù)據(jù)的簡(jiǎn)單API31 用pixiedust_rosie整理數(shù)據(jù)36 Display——一個(gè)簡(jiǎn)單的交互式數(shù)據(jù)可視化API42 過濾50 用PixieApp消除開發(fā)人員和數(shù)據(jù)科學(xué)家之間的壁壘52 操作化數(shù)據(jù)科學(xué)分析的體系結(jié)構(gòu)55 本章小結(jié)59 3使用Python庫加速數(shù)據(jù)分析60 PixieApp深度剖析61 路由62 生成路由請(qǐng)求65 GitHub項(xiàng)目跟蹤示例程序67 在表格中顯示搜索結(jié)果70 使用pd_entity屬性調(diào)用PixieDust display()API78 使用pd_調(diào)用任意Python代碼85 用pd_refresh讓應(yīng)用程序更具響應(yīng)性90 創(chuàng)建可重用的小部件93 本章小結(jié)94 4用PixieApp工具發(fā)布數(shù)據(jù)分析結(jié)果95 Kubernetes概述96 安裝和配置PixieGateway服務(wù)器97 PixieGateway服務(wù)器配置101 PixieGateway體系結(jié)構(gòu)105 發(fā)布應(yīng)用程序108 PixieApp URL中的編碼狀態(tài)112 通過將圖表發(fā)布為網(wǎng)頁來共享它們114 PixieGateway管理控制臺(tái)118 Python控制臺(tái)120 顯示PixieApp的預(yù)熱和運(yùn)行代碼121 本章小結(jié)121 5Python和PixieDust最佳實(shí)踐與高級(jí)概念122 使用@captureOutput裝飾器集成第三方Python庫的輸出123 使用@captureOutput創(chuàng)建詞云圖像123 增加模塊化和代碼重用126 使用pd_widget創(chuàng)建小部件128 PixieDust中的流式數(shù)據(jù)支持130 向PixieApp添加流處理功能134 添加帶有PixieApp事件的儀表盤下鉆功能136 擴(kuò)展PixieDust可視化141 調(diào)試148 使用pdb調(diào)試Jupyter Notebook148 使用PixieDebugger進(jìn)行可視化調(diào)試152 使用PixieDebugger調(diào)試PixieApp路由154 使用PixieDust日志記錄排除問題157 客戶端調(diào)試159 在Python筆記本中運(yùn)行Node.js161 本章小結(jié)165 6分析案例:人工智能與TensorFlow圖像識(shí)別167 什么是機(jī)器學(xué)習(xí)?168 什么是深度學(xué)習(xí)?169 開始使用TensorFlow172 用DNNClassifier進(jìn)行簡(jiǎn)單分類176 圖像識(shí)別示例應(yīng)用程序187 第1部分——加載預(yù)訓(xùn)練的MobileNet模型188 第2部分——為我們的圖像識(shí)別示例應(yīng)用程序創(chuàng)建一個(gè)PixieApp196 第3部分——集成TensorBoard圖形可視化200 第4部分——使用自定義訓(xùn)練數(shù)據(jù)重新訓(xùn)練模型206 本章小結(jié)217 7分析案例:自然語言處理、大數(shù)據(jù)與Twitter情感分析218 ApacheSpark入門218 Apache Spark體系結(jié)構(gòu)219 將Notebook配置為使用Spark220 “Twitter情感分析”應(yīng)用程序222 第1部分——以Spark Structured Streaming獲取數(shù)據(jù)223 數(shù)據(jù)管道的體系結(jié)構(gòu)圖224 Twitter的身份驗(yàn)證224 創(chuàng)建Twitter流226 創(chuàng)建Spark Streaming DataFrame229 創(chuàng)建和運(yùn)行結(jié)構(gòu)化查詢232 監(jiān)控活動(dòng)流式查詢234 從Parquet文件創(chuàng)建批量DataFrame236 第2部分——用情感和提取的最相關(guān)實(shí)體來豐富數(shù)據(jù)238 IBM Watson Natural Language Undersanding服務(wù)入門239 第3部分——?jiǎng)?chuàng)建實(shí)時(shí)儀表盤246 將分析重構(gòu)為它們自己的方法246 創(chuàng)建PixieApp249 第4部分——使用Apache Kafka和IBM Streams Designer添加可伸縮性258 將原始推文流到Kafka259 使用Streaming Analytics服務(wù)豐富推文數(shù)據(jù)263 使用Kafka輸入源創(chuàng)建Spark Streaming DataFrame270 本章小結(jié)273 8分析案例:預(yù)測(cè)——金融時(shí)間序列分析與預(yù)測(cè)274 NumPy入門275 創(chuàng)建NumPy數(shù)組278 ndarray運(yùn)算280 NumPy數(shù)組的選擇操作282 廣播284 時(shí)間序列的統(tǒng)計(jì)探索286 虛擬投資293 自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù)(PACF)294 將它們與StockExplorer PixieApp放在一起297 BaseSubApp——所有子PixieApp的基類302 StockExploreSubApp——第一個(gè)子PixieApp304 MovingAverageSubApp——第二個(gè)子PixieApp306 AutoCorrelationsubApp——第三個(gè)子PixieApp309 ARIMA模型在時(shí)間序列預(yù)測(cè)中的應(yīng)用312 建立MSFT股票時(shí)間序列的ARIMA模型314 StockExplorer PixieApp第2部分——使用ARIMA模型添加時(shí)間序列預(yù)測(cè)323 本章小結(jié)336 9分析案例:圖形算法——美國(guó)國(guó)內(nèi)航班數(shù)據(jù)分析338 圖形概述338 圖形表示340 圖形算法341 圖形和大數(shù)據(jù)344 networkx圖形庫入門345 創(chuàng)建圖形345 可視化圖形347 第1部分——將美國(guó)國(guó)內(nèi)航班數(shù)據(jù)加載到圖中348 圖的中心性357 第2部分——?jiǎng)?chuàng)建USFlightsAnalysis PixieApp366 第3部分——向USFlightsAnalysis PixieApp添加數(shù)據(jù)探索功能376 第4部分——?jiǎng)?chuàng)建預(yù)測(cè)航班延誤的ARIMA模型386 本章小結(jié)399 10數(shù)據(jù)分析的未來與拓展技能的途徑400 前瞻性思考——人工智能與數(shù)據(jù)科學(xué)的未來展望401 參考資料403 附錄PixieApp快速參考405 注釋405 自定義HTML屬性408 方法413
|