什麼是Data Mining?Data Mining 為你挖出黃金

Data Mining是什麼 ?

Data Mining(資料挖掘)，簡單來說就是透過大量的數據，試圖找出數據間的關係，就像在一片大土地上(Data) 挖礦(Mining) 一樣，我們希望找出數據中的黃金法則、得到見解，並且利用它來提升效益、減少成本等等。

許多人又稱Data Mining 為 Knowledge Discovery，因為它找出其中的關係以及規律，最終達成可預測市場的目的，這類的用法大多用在商業上以發掘市場機會、減少營運成本。

Data Mining 主要分為四個階段：

第一階段：定義問題(problem definition)：

第一步也是最重要的一步為定義問題，必須知道產業需要解決的問題以及目的是什麼，才能擷取正確的數據，這時會結合很多專家例如商業專家、數據專家、產業專家等等，一起定義問題。否則就會「Garbage in, garbage out」，而產出錯誤的分析。

第二階段：資料探索(data exploration)、資料準備(data preparation)：

在定義問題之後，相關領域的專家便開始搜集資訊，並且做數據整理(data cleaning)，亦即是刪除錯誤的資訊、整理數據，以確保數據的一致性。這個階段也相當重要，可以避免錯誤或缺少的資訊干擾分析結果。而不同的Modeling 工具需要不同形式的數據，資料準備即是確保數據符合下一階段Data Modeling 的格式。

第三階段：建立模組(Modeling)、模組評量(Evaluation)：

Modeling 的階段是 Data Mining中最精華的部分：Data Modeling 指的是結合不同整理好的數據，在過程中數據分析師要不斷地調整數據型式以及嘗試不同模型以找到最佳的數據關係模型。而這就是Data Mining 的重點所在：不斷地嘗試、調整數據和模型，以找到最佳結果，產出重要的見解與預測。

而在Evaluation 的時候，數據分析師要思考這個模型是否符合他們的期待、是否能解決預期的商業問題、所有的因素是否都有被考量。如果沒有，就會回到Modeling 的階段；如果符合，就進一步思考該如何使用這個模型。而今年因為machine learning 技術的發展，Modeling 的過程越來越快，讓分析師可以專注在蒐集數據以及運用。

第四階段：使用模組(Deploying Model)：

最後一部則是運用最佳的模型做預測或是運用找出的數據關係去做更多商業用途以及產品優化等等。

Data Mining 結合了統計、人工智慧以及資料庫的交叉運用，讓人們更了解數據背後的意義，並進一步利用，幫助人們更快地探索數據，提升運用數據的效率。下一篇繼續看Deep Learning怎樣應用！

編輯精選：

什麼是AI?

什麼是NLP (自然語言處理)？

塞車問題可以靠Big Data解決?

Data Mining是什麼？Data Mining 為你挖出黃金！