• <output id="aynwq"><form id="aynwq"><code id="aynwq"></code></form></output>

    <mark id="aynwq"><option id="aynwq"></option></mark>
  • <mark id="aynwq"><option id="aynwq"></option></mark><label id="aynwq"><dl id="aynwq"></dl></label>
  • 學(xué)習(xí)啦 > 知識(shí)大全 > 知識(shí)百科 > 百科知識(shí) > 什么是聚類(lèi)分析

    什么是聚類(lèi)分析

    時(shí)間: 謝君787 分享

    什么是聚類(lèi)分析

      聚類(lèi)分析指將物理或抽象對(duì)象的集合分組為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程。它是一種重要的人類(lèi)行為。那么你對(duì)聚類(lèi)分析了解多少呢?以下是由學(xué)習(xí)啦小編整理關(guān)于什么是聚類(lèi)分析的內(nèi)容,希望大家喜歡!

      聚類(lèi)分析的介紹

      聚類(lèi)分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類(lèi)。聚類(lèi)源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類(lèi)技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類(lèi)到不同的簇中。

      聚類(lèi)分析的區(qū)別

      聚類(lèi)與分類(lèi)的不同在于,聚類(lèi)所要求劃分的類(lèi)是未知的。

      聚類(lèi)是將數(shù)據(jù)分類(lèi)到不同的類(lèi)或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。

      從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類(lèi)分析是通過(guò)數(shù)據(jù)建模簡(jiǎn)化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類(lèi)分析方法包括系統(tǒng)聚類(lèi)法、分解法、加入法、動(dòng)態(tài)聚類(lèi)法、有序樣品聚類(lèi)、有重疊聚類(lèi)和模糊聚類(lèi)等。采用k-均值、k-中心點(diǎn)等算法的聚類(lèi)分析工具已被加入到許多著名的統(tǒng)計(jì)分析軟件包中,如SPSS、SAS等。

      從機(jī)器學(xué)習(xí)的角度講,簇相當(dāng)于隱藏模式。聚類(lèi)是搜索簇的無(wú)監(jiān)督學(xué)習(xí)過(guò)程。與分類(lèi)不同,無(wú)監(jiān)督學(xué)習(xí)不依賴(lài)預(yù)先定義的類(lèi)或帶類(lèi)標(biāo)記的訓(xùn)練實(shí)例,需要由聚類(lèi)學(xué)習(xí)算法自動(dòng)確定標(biāo)記,而分類(lèi)學(xué)習(xí)的實(shí)例或數(shù)據(jù)對(duì)象有類(lèi)別標(biāo)記。聚類(lèi)是觀察式學(xué)習(xí),而不是示例式的學(xué)習(xí)。

      聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標(biāo)準(zhǔn),聚類(lèi)分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類(lèi)。聚類(lèi)分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類(lèi)分析,所得到的聚類(lèi)數(shù)未必一致。

      從實(shí)際應(yīng)用的角度看,聚類(lèi)分析是數(shù)據(jù)挖掘的主要任務(wù)之一。而且聚類(lèi)能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。聚類(lèi)分析還可以作為其他算法(如分類(lèi)和定性歸納算法)的預(yù)處理步驟。

      聚類(lèi)分析的主要應(yīng)用

      商業(yè)

      聚類(lèi)分析被用來(lái)發(fā)現(xiàn)不同的客戶(hù)群,并且通過(guò)購(gòu)買(mǎi)模式刻畫(huà)不同的客戶(hù)群的特征。

      聚類(lèi)分析是細(xì)分市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。

      生物

      聚類(lèi)分析被用來(lái)動(dòng)植物分類(lèi)和對(duì)基因進(jìn)行分類(lèi),獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)

      地理

      聚類(lèi)能夠幫助在地球中被觀察的數(shù)據(jù)庫(kù)商趨于的相似性

      保險(xiǎn)行業(yè)

      聚類(lèi)分析通過(guò)一個(gè)高的平均消費(fèi)來(lái)鑒定汽車(chē)保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類(lèi)型,價(jià)值,地理位置來(lái)鑒定一個(gè)城市的房產(chǎn)分組

      因特網(wǎng)

      聚類(lèi)分析被用來(lái)在網(wǎng)上進(jìn)行文檔歸類(lèi)來(lái)修復(fù)信息

      電子商務(wù)

      聚類(lèi)分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個(gè)方面,通過(guò)分組聚類(lèi)出具有相似瀏覽行為的客戶(hù),并分析客戶(hù)的共同特征,可以更好的幫助電子商務(wù)的用戶(hù)了解自己的客戶(hù),向客戶(hù)提供更合適的服務(wù)。

      聚類(lèi)分析的主要步驟

      1、 數(shù)據(jù)預(yù)處理,

      2、 為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù),

      3、 聚類(lèi)或分組,

      4、 評(píng)估輸出。

      數(shù)據(jù)預(yù)處理包括選擇數(shù)量,類(lèi)型和特征的標(biāo)度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉(zhuǎn)化為一個(gè)新的顯著特征,它們經(jīng)常被用來(lái)獲取一個(gè)合適的特征集來(lái)為避免“維數(shù)災(zāi)”進(jìn)行聚類(lèi),數(shù)據(jù)預(yù)處理還包括將孤立點(diǎn)移出數(shù)據(jù),孤立點(diǎn)是不依附于一般數(shù)據(jù)行為或模型的數(shù)據(jù),因此孤立點(diǎn)經(jīng)常會(huì)導(dǎo)致有偏差的聚類(lèi)結(jié)果,因此為了得到正確的聚類(lèi),我們必須將它們剔除。

      既然相類(lèi)似性是定義一個(gè)類(lèi)的基礎(chǔ),那么不同數(shù)據(jù)之間在同一個(gè)特征空間相似度的衡量對(duì)于聚類(lèi)步驟是很重要的,由于特征類(lèi)型和特征標(biāo)度的多樣性,距離度量必須謹(jǐn)慎,它經(jīng)常依賴(lài)于應(yīng)用,例如,通常通過(guò)定義在特征空間的距離度量來(lái)評(píng)估不同對(duì)象的相異性,很多距離度都應(yīng)用在一些不同的領(lǐng)域,一個(gè)簡(jiǎn)單的距離度量,如Euclidean距離,經(jīng)常被用作反映不同數(shù)據(jù)間的相異性,一些有關(guān)相似性的度量,例如PMC和SMC,能夠被用來(lái)特征化不同數(shù)據(jù)的概念相似性,在圖像聚類(lèi)上,子圖圖像的誤差更正能夠被用來(lái)衡量?jī)蓚€(gè)圖形的相似性。

      將數(shù)據(jù)對(duì)象分到不同的類(lèi)中是一個(gè)很重要的步驟,數(shù)據(jù)基于不同的方法被分到不同的類(lèi)中,劃分方法和層次方法是聚類(lèi)分析的兩個(gè)主要方法,劃分方法一般從初始劃分和最優(yōu)化一個(gè)聚類(lèi)標(biāo)準(zhǔn)開(kāi)始。Crisp Clustering,它的每一個(gè)數(shù)據(jù)都屬于單獨(dú)的類(lèi);Fuzzy Clustering,它的每個(gè)數(shù)據(jù)可能在任何一個(gè)類(lèi)中,Crisp Clustering和Fuzzy Clusterin是劃分方法的兩個(gè)主要技術(shù),劃分方法聚類(lèi)是基于某個(gè)標(biāo)準(zhǔn)產(chǎn)生一個(gè)嵌套的劃分系列,它可以度量不同類(lèi)之間的相似性或一個(gè)類(lèi)的可分離性用來(lái)合并和分裂類(lèi),其他的聚類(lèi)方法還包括基于密度的聚類(lèi),基于模型的聚類(lèi),基于網(wǎng)格的聚類(lèi)。

      評(píng)估聚類(lèi)結(jié)果的質(zhì)量是另一個(gè)重要的階段,聚類(lèi)是一個(gè)無(wú)管理的程序,也沒(méi)有客觀的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)聚類(lèi)結(jié)果,它是通過(guò)一個(gè)類(lèi)有效索引來(lái)評(píng)價(jià),一般來(lái)說(shuō),幾何性質(zhì),包括類(lèi)間的分離和類(lèi)內(nèi)部的耦合,一般都用來(lái)評(píng)價(jià)聚類(lèi)結(jié)果的質(zhì)量,類(lèi)有效索引在決定類(lèi)的數(shù)目時(shí)經(jīng)常扮演了一個(gè)重要角色,類(lèi)有效索引的最佳值被期望從真實(shí)的類(lèi)數(shù)目中獲取,一個(gè)通常的決定類(lèi)數(shù)目的方法是選擇一個(gè)特定的類(lèi)有效索引的最佳值,這個(gè)索引能否真實(shí)的得出類(lèi)的數(shù)目是判斷該索引是否有效的標(biāo)準(zhǔn),很多已經(jīng)存在的標(biāo)準(zhǔn)對(duì)于相互分離的類(lèi)數(shù)據(jù)集合都能得出很好的結(jié)果,但是對(duì)于復(fù)雜的數(shù)據(jù)集,卻通常行不通,例如,對(duì)于交疊類(lèi)的集合。
    看過(guò)“聚類(lèi)分析的應(yīng)用”的人還看了:

    1.試論R軟件在系統(tǒng)聚類(lèi)分析中的應(yīng)用

    2.淺析聚類(lèi)分析方法在食堂消費(fèi)數(shù)據(jù)中的應(yīng)用論文

    3.孤立點(diǎn)分析在防火墻入侵檢測(cè)的研究論文

    4.淺析我國(guó)區(qū)域物流節(jié)點(diǎn)城市發(fā)展的統(tǒng)計(jì)評(píng)價(jià)

    5.基于人力資源強(qiáng)省視角的省市比較分析論文

    6.基于灰色聚類(lèi)的機(jī)場(chǎng)跑道侵入人為風(fēng)險(xiǎn)綜合評(píng)價(jià)淺析論文

    1651987 主站蜘蛛池模板: 伊人久久大香线蕉精品| 夜里18款禁用的视频软件| 国产在线视频不卡| 亚洲精品456在线播放| 中文免费观看视频网站| 久久综合久综合久久鬼色| 永久免费AV无码网站性色AV| 成年1314在线观看| 国产乱妇无码大片在线观看| 亚洲一线产区二线产区精华| 97久久天天综合色天天综合色hd | 九九热在线视频播放| 99精品国产成人a∨免费看| 精品久久久久久无码中文野结衣| 日本a级视频在线播放| 国产精品一级毛片不收费| 亚洲精品线在线观看| japanese21hdxxxx喷潮| 美女黄18以下禁止观看| 最好看的免费观看视频 | 亚洲天堂2016| 欧美大香线蕉线伊人久久| 国产精品色拉拉免费看| 亚洲精品成人网久久久久久| av2021天堂网手机版| 真正全免费视频a毛片| 师尊要被cao坏了by谦野| 又爽又黄又无遮挡的视频在线观看| 久久久国产精品一区二区18禁| 麻豆一区二区三区蜜桃免费| 欧美人与z0xxxx另类| 国产精品99久久免费观看| 亚洲日韩乱码中文无码蜜桃| 97一区二区三区四区久久| 污视频app网站| 国模无码一区二区三区不卡| 亚洲韩国欧美一区二区三区| jizz日本黄色| 波多野结衣妻奴| 国产高清不卡视频| 亚洲欧洲日产国码AV系列天堂 |