Product Info
Description
Description
PRODUCT INFORMATION
這本內容完整深入,但又不至於太技術性的指南介紹了數據科學的基礎原則,並引導你了解從資料中抽出有用知識與商業價值所需的「數據分析思維」。透過數據科學原則的學習,你會了解今日常用的許多資料採礦技術。更重要的是,這些原則鞏固了經由資料採礦技術解決商業問題所需之程序與策略的基礎。
Foster Provost 紐約大學史登商學院的教授兼NEC教職研究員,他在該校講授商業分析、資料科學,以及許多MBA課程。其得獎研究廣獲閱讀及引用。而在加入紐約大學之前,他以研究資料科學家的身分,為今日Verizon的前身工作了五年。在過去十年間,Provost教授已與其他人共同創辦了數個成功的資料科學導向公司。 Tom Fawcett 擁有機器學習領域的博士學位,已在業界擔任研發工作超過二十年(GTE實驗室、NYNEX/Verizon的實驗室,以及HP的實驗室等)。其發表作品,不論是方法論方面的(例如評估資料採礦結果)還是應用方面的(例如詐欺檢測與垃圾郵件過濾),皆已成為資料科學界的標準讀物。
TABLE OF CONTENT
第一章 序論:數據分析思維 第二章 商業問題與資料科學解決方案 第三章 預測性建模入門:從關聯性到監督式區隔 第四章 將模型配適於數據資料 第五章 過適與避免過適 第六章 相似性、鄰近及聚類 第七章 決策分析思維I:怎樣的模型才是好模型? 第八章 將模型效果視覺化 第九章 證據與機率 第十章 文本的表述與文字採礦 第十一章 決策分析思維II:關於分析設計 第十二章 其他的資料科學任務與技術 第十三章 資料科學與商業策略 第十四章 總結 附錄A 提案審查指南 附錄B 另一個提案範例
PREFACE/READING GUIDANCE
序 這不是一本介紹演算法的書,也不打算取代介紹演算法的書。我們刻意避開了以演算法為中心的做法。我們相信,在從資料中抽取有用知識的技術背後,存在有相對更精簡的一組基本概念或原則。這些概念是許多知名資料採礦演算法的基礎,也是以數據為中心之商業問題分析、資料科學解決方案之創立與評估,還有一般資料科學策略及提案之評估等的基礎。因此,我們的說明都圍繞著這些一般性的原則,而非特定的演算法。在需要解說程序細節時,本書採取以文字搭配圖表的方式呈現,因為我們認為這樣會比詳盡的演算步驟條列更容易理解。 閱讀本書不需要有高深的數學背景,但此書本身還是有一定程度的技術性質-目標是要讓讀者確實理解資料科學,而不是只提供整體概述。基本上我們已盡量努力縮減數學部分,並使說明內容盡可能「概念化」。 同行們都說,這本書非常寶貴,可協助經營、技術/開發及資料科學等團隊達成一致的理解。不過此觀察結果是基於相當小的樣本,所以我們很好奇地想知道這實際上有多普遍(請見第5章)。理想上,我們希望這是一本會讓每個資料科學家想遞給來自開發或經營團隊的合作夥伴的書,以藉此有效表達:若你真的想針對商業上的問題,設計/實行頂尖的資料科學解決方案,我們就需要對此題材有共通的理解。同行們還說,此書有個意料之外的用途,那就是:可用於為面試資料科學工作應徵者做準備。企業對雇用資料科學家的需求相當強烈,且與日俱增。因應此現況,也有越來越多的求職者以資料科學家自居。而每個資料科學工作的應徵者都該了解本書所介紹的基礎知識(我們的業界同仁透露,他們很驚訝地發現其實很多人都不懂這些基礎。因此,我們還曾半開玩笑地討論要再出一本「資料科學工作面試手冊」呢)。
CONTENT PREVIEW OF THE BOOK
過去15 年來,我們已看見人們對商業基礎設施的大量投資,而這提升了人們在整個企業中收集數據、資料的能力。現在幾乎每個商業環節(例如營運、生產製造、供應鏈管理、顧客行為、行銷活動效果、工作流程程序⋯等等)都可能進行數據收集,甚至往往已有工具、設備可實際進行數據收集。在此同時,外部狀況的資訊(像是市場趨勢、業界動態及競爭對手動向等)也已變得相當廣泛易得。資料數據的這種普遍可得性,造成大家對於從數據中抽取有用資訊與知識的方法越來越有興趣-而這正是資料科學的領域。 無所不在的數據商機 在能夠取得大量數據的現在,幾乎每個行業的各家公司都很重視利用數據來取得競爭優勢。過去,企業可雇用統計人員、建模人員及分析人員的團隊,以手動方式探索資料集,但現在數據的量與種類都已遠遠超出人工分析所能應付的範圍。同時由於電腦效能已變得更強大,網路已然無遠弗屆,也已經有許多演算法被開發出來,所以我們能夠連結資料集,並達成比以往更廣泛且深入的分析。這種種現象,讓資料科學原理與資料採礦技術的商業應用日益普及。 資料採礦技術最廣泛的應用,大概就是用在目標市場行銷、網路廣告及共同行銷(crossselling,也稱交叉銷售)的建議等行銷工作上了。資料採礦可用於一般的顧客關係管理,用來分析顧客行為,以管理顧客價值的損耗與最大化期待。金融業將資料採礦應用於信用評分與交易,而在經營面則用於詐欺檢測和勞動力管理。從Walmart 到Amazon等大型零售商都將資料採礦全面應用於其事業,不論是行銷還是供應鏈管理。許多公司已經策略性地利用資料科學,成功將自己區隔出來,有些甚至就這樣發展成了專門的資料採礦公司。 本書的主要目標,是要幫助你從資料、數據的角度來看商業問題,並幫助你了解從數據中抽取有用知識的原理。數據分析思維有其基礎結構以及基本原則是你該要理解的。另外也有一些特定部分是需要同時具備直覺、創造力、常識以及專業知識的。數據觀點提供了結構和原理,可給你一個架構來系統化地分析這些問題。而隨著你的數據分析思維越來越好,你便會發展出一種直覺,知道該在何處、又該如何應用創造力與專業知識。在本書的前兩章中,我們將詳細討論各種與資料科學及資料採礦有關的主題和技術。