發布時間:2025-05-04 文章來源:xp下載站 瀏覽:
SPSS由IBM公司出品,它提供了包括描述性統計、推斷性統計、因子分析、聚類分析、回歸分析等多種統計分析功能,并包括文本分析、機器學習算法、數據分析模型等。SPSS的界面友好,易于操作,能夠快速從數據中提取有用的洞察和分析,廣泛應用于教育、心理、醫學、市場、人口、保險等多個研究領域,也用于產品質量控制、人事檔案管理和日常統計報表等。 聚類分析共有三類:快速聚類、系統聚類和二階聚類,下面我們要介紹的是IBM SPSS Statistics的二階聚類分析的方法。 一、二階聚類 使用二階聚類,SPSS會為用戶探索數據間較為自然的一種分類,可以同時處理分類變量和連續變量,也叫作兩步聚類。
圖1:二階聚類 第一步是構建分類的特征數,將觀測點記在某個節點處,然后判斷后續觀測點與該節點的相似性,若不相似,將構建一個新的節點;第二步是對節點進行分組,分組完成就是二階聚類分析完成。 SPSS的聚類功能都在“分析”——“分類”菜單下,點擊“二階聚類”,可以進入二階聚類分析窗口。 二、分析操作 1.數據樣本
圖2:數據樣本 我們這里選用的是SPSS自帶的一份數據樣本,各類汽車的參數及銷售數據,使用二階聚類可以將這些個案對象進行分類分析處理。 2.變量設置
圖3:二階聚類的變量設置 將汽車類型“type”移入分類變量窗口,將分類依據的變量移入連續變量窗口,我們這里依據的是價格、寬度、長度、燃料效率等基礎參數的變量,可以使用Shift鍵將這些變量選中后一次性添加。 3.其他設置
圖4:其他設置 距離測量使用對數似然,因為我們這里使用到了分類變量,所以歐氏距離不可用。 聚類數量使用自動確定,最多可以分為15類,當然,也可以自己確定聚類數。 聚類準則使用BIC標準。 4.選項
圖5:選項設置 勾選使用噪聲處理離群值,數值使用默認的25%即可,這會將數據的析出節點合并為一個噪聲節點,判斷后保留特定的節點,不能被歸類的觀測值會被標記為離群值。 內存分配設置的是聚類過程中的最大空間,超過設定值后會使用硬盤存儲數據。 連續變量的標準化這里不需要多加設置,如果已標準化,可以減少右側窗口內的變量。 5.輸出
圖6:輸出設置 勾選輸出透視表,會輸出四個表格:BIC統計表、連續變量的均值和標準差、最終分類的觀測個數、最終分類變量的頻數統計表。 保持默認已勾選的圖表和表格,下面的工作數據文件和XML文件根據需要設置保存及導出位置。 6.完成分析
圖7:自動聚類表格 上圖是輸出結果的第一個表格,從這個表格中可以分析最佳的聚類數目:較小的BIC值,較大的更該比率,較大的距離度量比率,最佳聚類數目是3類。
圖8:聚類概要 在質心和聚類頻率表格中可以看到具體的三組分類下各個變量的均值和偏差,頻率和百分比情況。 三、小結 以上就是在IBM SPSS Statistics中如何使用二階聚類方法對數據樣本進行分析處理了,聚類分析的操作難度不大,合理選擇聚類方法可以找到現有數據的最佳聚類分布,便于后續分析操作的進行。 世界上許多有影響的報刊雜志就SPSS給予了高度的評價。 |