2013年9月7日 星期六

筆記Data Mining 入門觀念

人類知識的起源來自對現象與問題的分類

data mining目的:
運用探勘技術=>從大量資料中挖掘出=>資料之間的關聯性以及隱藏的知識=>以獲得利益

EX:
Wal-Mart銷售資料分析發現(人家用超級電腦做這件事):Top items that people stock up on before hurricanes hit including: non-perishable food that can be eaten easily and without heat, such as Pop-Tarts and bread….
備註Pop-Tarts 是一種夾心餅乾, 圖片如下




Disclaimer: 僅為個人提示用筆記,無完整教材


負責授課的學長還特地準備了pop-tarts買來分給大家,讓這門data mining的課超有fu


謎之口感音:這個歪國的餅乾零時真是難吃!
生活在寶島台灣真是幸福




用途預測未來的趨勢股市行情預測
天氣預測
地震預測
消費行為預測
商品出貨量預測…等等



找出未知的樣式找出會購買筆記型電腦的顧客特徵
依消費習性相近的顧客進行群組
推薦鑑別消費者可能會同時購買的商品組合…等等
EX:
找出如下的規則(pattern):
 IF 住在台北
  AND 性別是男性
  AND 年齡介於 37到42歲之間
  THEN 購買筆記型電腦的可能性是 85%



和統計分析的異同統計分析(Statistical Analysis) 以假設(Hypothesis)及驗證(Verification)為基礎
小量的樣本資料
敘述母體樣貌與推論可能的因果關聯
由具專業專家對解釋統計結果的涵義

資料探勘(Data Minging)以發現(Discovery)為基礎,著重「樣式型態(pattern)辨認」
海量資料(big data):通常資料筆數成千上萬(而且不斷累積)
想找出有趣的關連性與潛在關聯規則(而非驗證因果關係)
供不具專業背景的使用者(高層決策人員)使用



主要常用的Data Mining Methods有以下幾種
資料分類 (Data Classification) =>類別資料

建立一個學習函數(分類模型)將每個屬性集合(X1,X2,X3…Xn)對應到一個已定義的類別Y

分類其實是貼標籤(EX:外省人、本省人、上班族OL、宅男腐女)

也就是行銷上講的消費者族群,難度在於如何達成Mutually Exclusive Collectively Exhaustive,也就是對於現象與群眾的拆解,要作到類別項目間沒有不重疊、所有的分類涵蓋所有樣本空間。

分類的演算法包含

決策樹



最鄰近法





簡單貝氏分類






PS:
貝氏分類假設各屬性之間是獨立,然而實務上此一假設通常不成立(EX:學歷與收入無關)



各種分類方法的優劣評估




如何評估與計算分類結果的好壞(亂度高低)


PS:
實務上用決策樹比較容易說服決策者,學術上則是貝氏法比較吃香(有統計與數學)



資料關聯 (Data Association)





資料分群 (Data Clustering) 分群的基本觀念構想



分群結果的好壞,往往很難論斷(只能自圓其說或跟某個權威的分類結果比較)




Clustering Algorithms
K-means
要事先決定要把所有的樣本資料區分成K群,選定K的起始點





K-mean 的缺點與罩門
由於是算點和點之間的距離,所以容易傾向於把大群分割與收斂成圓形


Hierarchical clustering把所有的點視為單獨一類,再依據彼此之間的距離進行合併



Density-based clustering


前面提到(事前)分群,除非做事後的驗證,否則很難論斷分類的意義與結果的好壞,底下這個例子顯示:

即便是雜亂(random)的資料,各種分群的演算法還是會幫大家分出個結果來=>結果有沒有意義,恐怕要很小心(不要犯了型一型二錯誤與自己在那邊唬爛穿鑿附會)










1 則留言:

Wayne 提到...

資料分析不難(有套裝軟體可以代勞),難的是如何詮釋與與判斷詮釋的正確與否...
Big Data 的問題反而很類似質性研究:
不能證明、只能說明
不能解釋、只能詮釋

Big Data, Thick Description
http://udn.com/NEWS/FINANCE/FIN3/8766985.shtml