2. 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)準(zhǔn)備 階 段 又 可 分 為 3 個(gè) 子 步 驟:數(shù) 據(jù) 選 取(DataSelection)、數(shù) 據(jù) 預(yù) 處 理(Data Preprocessing)和數(shù)據(jù)變換(DataTransformation)。 (1) 數(shù)據(jù)選取 血液融漿機(jī) 數(shù)據(jù)選取的目的就是根據(jù)數(shù)據(jù)挖掘的目的和任務(wù),確定實(shí)現(xiàn)這一目標(biāo)與任務(wù)所需的操作 對(duì)象,即目標(biāo)數(shù)據(jù)(TargetData),它是根據(jù)用戶的需要從原始數(shù)據(jù)庫(kù)中抽取的一組相關(guān)數(shù)據(jù)。 354 第十章 數(shù)據(jù)挖掘與Agent技術(shù) (2) 數(shù)據(jù)預(yù)處理 由于所選取的數(shù)據(jù)可能具有這樣一些特性:巨 量性、動(dòng)態(tài) 性、噪聲 性、缺值 和稀疏 性,一 般在實(shí)施數(shù)據(jù)挖掘之前應(yīng)對(duì)其進(jìn)行一些預(yù)處理。數(shù)據(jù)預(yù)處理一般可能包括消除噪聲或數(shù)據(jù) 清洗、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除數(shù)據(jù)的不一致性、消除重復(fù)記錄以及完成數(shù)據(jù)類型轉(zhuǎn)換(如把 連
續(xù)值數(shù)據(jù)轉(zhuǎn)換為離散型的數(shù)據(jù),以便于符號(hào) 歸納,或 是把離 散型 的轉(zhuǎn) 換為連 續(xù)值 型的,以 便于神經(jīng)網(wǎng)絡(luò)歸納)等,以確保數(shù)據(jù)的質(zhì)量,為進(jìn)一步的數(shù)據(jù)分析做準(zhǔn)備。 (3) 數(shù)據(jù)變換 數(shù)據(jù)變換的主要目 的是 消減 數(shù)據(jù) 維數(shù) 或 降維(DimensionReduction),即 從初 始 特征 中 找出真正有用的特征以減少數(shù)據(jù)挖掘時(shí)要考 慮的特 征或 變量個(gè) 數(shù)。另 外,為 了適 應(yīng)所 選擇 的數(shù)據(jù)挖掘算法和工具,也要對(duì)數(shù)據(jù)做一些相應(yīng)的變換。比如,神經(jīng)網(wǎng)絡(luò)要求所有的變量的 取值都在0~1之間,因此在一些數(shù)據(jù)(包括非數(shù)值數(shù)據(jù))被提交到神經(jīng)網(wǎng)絡(luò)算法之前就必須 先對(duì)不在[0,1]內(nèi)的變量進(jìn)行映射變換。 3. 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘階段的任務(wù)是 首先 確定 數(shù)據(jù) 挖掘 要 完成 什么 樣的 功能,如數(shù) 據(jù) 總結(jié)、數(shù)據(jù) 分 類、數(shù)據(jù)聚類、趨勢(shì)分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序 列模式 發(fā)現(xiàn) 等。在確 定要 完成的 數(shù)據(jù) 挖掘 功能 后,就要決定使用什么樣的挖掘算法,同樣的任務(wù)可
以用不同的算法來(lái)實(shí)現(xiàn)。選擇實(shí)現(xiàn)算法 有兩個(gè)考慮因素:一是不同的數(shù)據(jù)有不同的特 點(diǎn),因此 需要用 與之 相關(guān) 的算法 來(lái)挖 掘;二是 用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求,有的用戶 可能希 望獲 取描 述型的(Descriptive)、容易 理解 的知 識(shí)(在這種情況下,采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法),而有的用戶 或系統(tǒng)的目的是獲取預(yù)測(cè)準(zhǔn)確度盡可能高 的預(yù)測(cè) 型(Predictive)知識(shí)。 算法確 定之 后,就由 挖掘系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)自動(dòng)挖掘。數(shù) 據(jù)挖掘 算法是 KDD 的核 心,也 是目 前研 究人 員主要努力的方向,要獲得好的挖掘效果,必須對(duì)各種挖掘算法的要求或前提假設(shè)有充分的 理解。 4. 結(jié)果的解釋評(píng)價(jià)與可視化



