少。所應(yīng)用的技術(shù)越多,用戶血液溶漿機在選擇技術(shù)時就越困難。這就像在商場里選電視機一樣,電視 的品牌越多,選擇時就越困難,因為這些品牌 間的區(qū) 別并 不大。同 樣,在理解 了數(shù) 據(jù)挖 掘技 術(shù)以及它們之間的相似性之后,就會發(fā)現(xiàn),最初對這些技術(shù)上的不同理解只是因為沒有很好 的理解這些技術(shù)本身,一旦理解技術(shù)本身之后,就知道這些技術(shù)之間是十分類似。 要對數(shù)據(jù)挖掘技術(shù)進行比較,應(yīng)首先對 使用這 些技 術(shù)數(shù) 據(jù)挖掘 產(chǎn)品 進行評 價。評 價通 常可從三個方面考慮。第一個是商業(yè)評價,它更多考慮市場特點。第二個是應(yīng)用評價,它立 足于比較細節(jié)的層次,說明了某一技術(shù)在哪個應(yīng)用領(lǐng)域效果最好,在哪個應(yīng)用領(lǐng)域使用效果 不好或者不能使用。第三個是算法評價,是最詳細的評價,它是從數(shù)據(jù)挖掘的最低層比較這 些技術(shù)。數(shù)據(jù)挖掘技術(shù)在 算法 評 價上 的表 現(xiàn)直 接影 響 它在 商業(yè) 和應(yīng) 用評 價 上的 排 名。例 如,在算法評價上,如果處理干擾數(shù)據(jù)的能力很高,那么在
商業(yè)評價上,表明其有更高的自適 應(yīng)性能。 (1) 商業(yè)評價 商業(yè)評價主要評價數(shù)據(jù)挖掘技術(shù)的商業(yè)價 值。在評 價過 程中,考 慮的不 是學(xué) 術(shù)中 的速 度或性能,而是商業(yè)團體所遇到的現(xiàn)實問題。因 為有 些數(shù) 據(jù)挖掘 技術(shù) 不能實 際應(yīng) 用到 商業(yè) 中去,只是停留在學(xué)術(shù)研究上。 (2) 應(yīng)用評價 應(yīng)用評價主要側(cè)重點是幫助一個特定應(yīng)用 選擇 數(shù)據(jù)挖 掘算 法。在特 定應(yīng) 用中,一 些數(shù) 據(jù)挖掘技術(shù)的易用性要比另一些技術(shù)要好。例如,決 策樹 和神經(jīng) 網(wǎng)絡(luò) 都能夠 從數(shù) 據(jù)庫 中產(chǎn) 生規(guī)則,但是一般來講,如果要發(fā)現(xiàn)數(shù)據(jù)庫中所有關(guān)聯(lián)規(guī)則或有趣的規(guī)則,那么,規(guī)則推理技 術(shù)就是最有效的方法。再 比如,在 文字 的識 別 和處 理上,決 策樹 和 神經(jīng) 網(wǎng)絡(luò) 都是 可 用的 算 法,但是最好的方法則是鄰近搜索算法。 (3) 算法評價 算法評價從算法本身來詳細地說明算法的 優(yōu)缺 點。例如,在 比較 時可以 將準 確性 作為 10.1 數(shù)據(jù)挖掘及其應(yīng)用 353 一個指標,但是如果一個算法本身沒有辦法處理一定程度上受到破壞或干擾的數(shù)據(jù),那么算 法的準確性又能說明 什 么?或 者,如 果 一個 算 法 本身 運 行 很 快,例 如 在 10 min 內(nèi)處 理 10 GB的數(shù)據(jù),但是如果前期數(shù)據(jù)的準確需要一個月,這個算法又有什么用? 總而言之,對數(shù)據(jù)挖掘算法的比較一定要選擇一個衡量的標準,而標準的選擇也是比較 困難的,因為在一個評價標準下表現(xiàn)優(yōu)秀的算 法,在另 一個標 準下 并不 一定優(yōu) 秀,所以 這要 根據(jù)用戶的實際
情況而定。上面只是給出了評價數(shù)據(jù)挖掘算法時,可以考慮的三個方面,僅 供參考。 10.1.7 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘是一個依賴應(yīng)用的問題,不同的數(shù) 據(jù)挖 掘應(yīng) 用可能 需要 不同的 數(shù)據(jù) 挖掘 技術(shù) 進行處理,處理流程可能也會有所不同。一般 情況 下,數(shù)據(jù)挖 掘的 過程 包括5 個步 驟:確定 業(yè)務(wù)對象、數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果的解釋評價與可視化以及知識同化,如圖10.2所示。 圖10.2 數(shù)據(jù)挖掘的基本過程 1. 確定業(yè)務(wù)對象 清晰地定義出業(yè)務(wù)問題,認清數(shù)據(jù)挖掘 的目的 是數(shù) 據(jù)挖 掘的重 要一 步。挖掘 的最 后結(jié) 構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則是帶有盲目性 的,是不會成功的。



