Text Ming是(利用電腦)找出key word來描述文章或背後作者的特徵(而非解讀整篇文章),再利用這些量化的特徵來進行量性的data mining比對、分類、分群
用途:
國外路透社用來抓抄襲的文章
車廠分析客戶抱怨(以免前線客服與各階層人員粉飾太平)
在學界有人分析期刊文章,找出各領域大師與未來研究方向
挑戰與問題在於,語意的模擬兩可,特別是中文,同一句話的解讀,可能只75%的認同
Text
Document Collection
Text Characteristics
資料收集,來源不同、格式不同
要具代表性,然而會遇到資料持續成長增加與個資保密問題
Text
preprocessing
Syntactic/Semantic text analysis
Text cleanup
清除圖片等非文字資料
清除贅字、錯誤文法或其他無法辨識的語言字句
Tokenization
辨別單一個字=斷詞(特別是中文,要參考前後字組成的字詞)
Part Of Speech (pos) tagging
標示詞性:名詞、動詞、形容詞、副詞…(視研究目的挑選名詞或動詞…)
Find the corresponding pos for each word
e.g., John (noun) gave
(verb) the (det) ball (noun)
Word sense disambiguation
Determining in which sense
a word having a number of distinct senses is used in a given sentence.
–“The king saw the rabbit
with his glasses”
找出同義字(有網路字典)、釐清模擬兩可的詞意或指定字義
Parsing
Generates a parse tree (graph) for each sentence
Each sentence is a stand alone graph
考慮文法/建立文法的判斷樹,以英文來說,出現在句首的字比句尾來得重要(權重高)
Feature
Generation
Bag of words
下雨天留客天天留我不留=下1+雨1+天3+留3+我1+不1
形成不同字的集合=>已經不管出現順序和文法
Words Properties
Word frequencies in texts have power distribution:
…small number
of very frequent words
…big number of
low frequency words
Stop-Words
沒有意義的銜接副詞
English: A, ABOUT, ABOVE, ACROSS, AFTER, AGAIN, AGAINST, ALL,
ALMOST, ALONE, ALONG, ALREADY, ALSO, ...
Stemming
把不同狀態的字轉回原形
e.g. learns, learned, learning,…=>learn
Frequent N-Grams
有些是兩三個字連結在一起的專有名詞, e.g. “machine learning” is 2-gram
國外用3-gram抓出J.K.Roling用假名寫的小說
Thesaurus (WordNet)
可以借重網路字典
國內中研院斷字系統的處理結果樣貌
Feature
Selection
如何量化評估各個文章的特徵差異=>TFIDF
找出以上各篇文章的特徵向量,就可以計算文章間的相似性,或用此一特徵矩陣,去跑data mining的分類、集群
之後可以進入量性分析的部分
Classification
Clustering
Analyzing results
沒有留言:
張貼留言