信息和數(shù)據(jù)的交互是信息時代的特征和產(chǎn)物,隨著電子商務(wù)的興起與發(fā)展,人們已經(jīng)認(rèn)識到信息和數(shù)據(jù)的重要性,它既是全程工作運(yùn)轉(zhuǎn)的記錄累積,也是驅(qū)動商業(yè)行為的動力之源。正如阿里巴巴、京東等公司的掌門人所夸耀的,目前他們的交易平臺可以在用戶模糊輸入產(chǎn)品信息進(jìn)行產(chǎn)品搜索時,自動匹配出買家和賣家的精準(zhǔn)內(nèi)容,從而使用戶在數(shù)董龐大的產(chǎn)品中找到自己最想要的或相關(guān)度最高的產(chǎn)品。這種互聯(lián)網(wǎng)技術(shù)的應(yīng)用,正是基于數(shù)據(jù)挖掘 (Data Mining)技術(shù)而實(shí)現(xiàn)的。管道泵
1數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從大量的、不不會的、有噪聲的、隨機(jī)的、模糊的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又具有潛在有用信息和知識的過程。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,動輒以TB(太字節(jié),1TB=1024GB)計。從海量數(shù)據(jù)中提取有用的知識成為當(dāng)務(wù)之急,數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運(yùn)而生并發(fā)展起來的數(shù)據(jù)處理技術(shù),是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Database)的關(guān)鍵步驟。磁力泵
數(shù)據(jù)挖掘功能一般可以分為兩類:預(yù)測和描述。描述性挖掘功能用來描述數(shù)據(jù)庫中數(shù)據(jù)的一般特性,而預(yù)測性挖掘功能是在現(xiàn)有數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中抽取知識的過程,鑒于數(shù)據(jù)本身的性質(zhì),那些符合推理和信息論、統(tǒng)計原理、遺傳算法和神經(jīng)網(wǎng)絡(luò)的知識被首先運(yùn)用到知識發(fā)現(xiàn)的算法設(shè)計中。化工泵
數(shù)據(jù)挖掘與傳統(tǒng)意義上的統(tǒng)計學(xué)不同。統(tǒng)計學(xué)推斷是由假設(shè)驅(qū)動的,即形成假設(shè)并在數(shù)據(jù)基礎(chǔ)上進(jìn)行驗(yàn)證;數(shù)據(jù)挖掘是由數(shù)據(jù)驅(qū)動的,即自動地從數(shù)據(jù)中提取模式和假設(shè)。數(shù)據(jù)挖掘的目標(biāo)是提取可以容易轉(zhuǎn)換成邏輯規(guī)則或可視化表示的定性模型,與傳統(tǒng)的統(tǒng)計學(xué)相比,更加以人為本。自吸泵
