From Micro to Macro: 筆記Texting Mining 觀念步驟

Text Ming是（利用電腦）找出key word來描述文章或背後作者的特徵(而非解讀整篇文章)，再利用這些量化的特徵來進行量性的data mining比對、分類、分群

用途：
國外路透社用來抓抄襲的文章
車廠分析客戶抱怨(以免前線客服與各階層人員粉飾太平)
在學界有人分析期刊文章，找出各領域大師與未來研究方向

挑戰與問題在於，語意的模擬兩可，特別是中文，同一句話的解讀，可能只75%的認同

作法與程序步驟

Text

Document Collection

Text Characteristics

資料收集，來源不同、格式不同

要具代表性，然而會遇到資料持續成長增加與個資保密問題

Text preprocessing

Syntactic/Semantic text analysis

Text cleanup

清除圖片等非文字資料

清除贅字、錯誤文法或其他無法辨識的語言字句

Tokenization

辨別單一個字=斷詞(特別是中文，要參考前後字組成的字詞)

Part Of Speech (pos) tagging

標示詞性：名詞、動詞、形容詞、副詞…（視研究目的挑選名詞或動詞…）

Find the corresponding pos for each word

e.g., John (noun) gave (verb) the (det) ball (noun)

Word sense disambiguation

Determining in which sense a word having a number of distinct senses is used in a given sentence.

–“The king saw the rabbit with his glasses”

找出同義字(有網路字典)、釐清模擬兩可的詞意或指定字義

Parsing

Generates a parse tree (graph) for each sentence

Each sentence is a stand alone graph

考慮文法/建立文法的判斷樹，以英文來說，出現在句首的字比句尾來得重要(權重高)

Feature Generation

Bag of words

下雨天留客天天留我不留=下1+雨1+天3+留3+我1+不1

形成不同字的集合=>已經不管出現順序和文法

Words Properties

Word frequencies in texts have power distribution:

…small number of very frequent words

…big number of low frequency words

Stop-Words

沒有意義的銜接副詞

English: A, ABOUT, ABOVE, ACROSS, AFTER, AGAIN, AGAINST, ALL, ALMOST, ALONE, ALONG, ALREADY, ALSO, ...

Stemming

把不同狀態的字轉回原形

e.g. learns, learned, learning,…=>learn

英文的部份可以參考 http://www.tartarus.org/~martin/PorterStemmer/

Frequent N-Grams

有些是兩三個字連結在一起的專有名詞， e.g. “machine learning” is 2-gram

國外用3-gram抓出J.K.Roling用假名寫的小說

Thesaurus (WordNet)

可以借重網路字典

公認：http://wordnetweb.princeton.edu/perl/webwn?

國內中研院斷字系統的處理結果樣貌

Feature Selection

如何量化評估各個文章的特徵差異=>TFIDF

找出以上各篇文章的特徵向量，就可以計算文章間的相似性，或用此一特徵矩陣，去跑data mining的分類、集群

之後可以進入量性分析的部分
Classification
Clustering
Analyzing results

From Micro to Macro

網頁

2013年9月8日星期日

筆記Texting Mining 觀念步驟

沒有留言:

張貼留言

網頁

2013年9月8日 星期日

筆記Texting Mining 觀念步驟

沒有留言:

張貼留言

2013年9月8日星期日