2013年9月8日 星期日

筆記Texting Mining 觀念步驟


 


Text Ming是(利用電腦)找出key word來描述文章或背後作者的特徵(而非解讀整篇文章),再利用這些量化的特徵來進行量性的data mining比對、分類、分群

 


用途:
國外路透社用來抓抄襲的文章
車廠分析客戶抱怨(以免前線客服與各階層人員粉飾太平)
在學界有人分析期刊文章,找出各領域大師與未來研究方向

挑戰與問題在於,語意的模擬兩可,特別是中文,同一句話的解讀,可能只75%的認同




 
作法與程序步驟
 
 
 
Text
Document Collection
Text Characteristics
資料收集,來源不同、格式不同
要具代表性,然而會遇到資料持續成長增加與個資保密問題
 
 
Text preprocessing
Syntactic/Semantic text analysis
Text cleanup
清除圖片等非文字資料
清除贅字、錯誤文法或其他無法辨識的語言字句
Tokenization
辨別單一個字=斷詞(特別是中文,要參考前後字組成的字詞)
Part Of Speech (pos) tagging
標示詞性:名詞、動詞、形容詞、副詞(視研究目的挑選名詞或動詞
Find the corresponding pos for each word
    e.g., John (noun) gave (verb) the (det) ball (noun)
Word sense disambiguation
    Determining in which sense a word having a number of distinct senses is used in a given sentence.
    –“The king saw the rabbit with his glasses”
找出同義字(有網路字典)、釐清模擬兩可的詞意或指定字義
Parsing
Generates a parse tree (graph) for each sentence
Each sentence is a stand alone graph
考慮文法/建立文法的判斷樹,以英文來說,出現在句首的字比句尾來得重要(權重高)
 
 
 
Feature Generation
Bag of words
下雨天留客天天留我不留=1+1+3+3+1+1
形成不同字的集合=>已經不管出現順序和文法
Words Properties
Word frequencies in texts have power distribution:
small number of very frequent words
big number of low frequency words
Stop-Words
沒有意義的銜接副詞
English: A, ABOUT, ABOVE, ACROSS, AFTER, AGAIN, AGAINST, ALL, ALMOST, ALONE, ALONG, ALREADY, ALSO, ...
Stemming
把不同狀態的字轉回原形
e.g. learns, learned, learning,…=>learn
Frequent N-Grams
有些是兩三個字連結在一起的專有名詞, e.g. “machine learning” is 2-gram
國外用3-gram抓出J.K.Roling用假名寫的小說
Thesaurus (WordNet)
可以借重網路字典
 
國內中研院斷字系統的處理結果樣貌







Feature Selection



如何量化評估各個文章的特徵差異=>TFIDF

找出以上各篇文章的特徵向量,就可以計算文章間的相似性,或用此一特徵矩陣,去跑data mining的分類、集群


之後可以進入量性分析的部分
Classification
Clustering
Analyzing results






 


 

沒有留言: