本文針對互聯(lián)網(wǎng)論壇用戶識別問題,根據(jù)網(wǎng)上數(shù)據(jù)內(nèi)容,進行合理化的簡化假設(shè),運用數(shù)據(jù)挖掘技術(shù), 針對話題用戶、活躍用戶、言論領(lǐng)袖的不同特點,分別建立相應的模型,運用多種算法。其中最核心的是數(shù)據(jù)挖掘和處理算法。本文所提出的數(shù)據(jù)挖掘處理的方法和思想也適用于解決其他類似問題,如應用在搜索引擎中的信息檢索、電子商務中的獲取潛在客戶信息、網(wǎng)站設(shè)計中優(yōu)化管理等方面。
本文針對互聯(lián)網(wǎng)論壇用戶識別問題,根據(jù)網(wǎng)上數(shù)據(jù)內(nèi)容,進行合理化的簡化假設(shè),運用數(shù)據(jù)挖掘技術(shù),分別建立相應的模型。
首先,對言論領(lǐng)袖識別問題,我們以論壇的頁面訪問量、會員積分、會員威望、精華數(shù)四個因子進行兩兩比較,運用層次分析法建立成對比較矩陣,利用MATLAB軟件解出結(jié)果。
其次,在話題用戶識別問題上,我們采用基于聚類的話題識別算法, 基于平均值的K-Means算法, 基于相似度矩陣的K-Medoids算法等。
然后,對于活躍用戶識別,經(jīng)過活躍函數(shù)的分析,結(jié)果并采用BP神經(jīng)網(wǎng)絡模型進行了評判和改進。
最后,對于關(guān)系圈識別,我們建立共點圓系模型,將用戶關(guān)聯(lián)關(guān)系描述出來。另外還針對要求提出實例說明和說明數(shù)據(jù)獲取途
第十二屆“挑戰(zhàn)杯”省賽作品 省賽三等獎
榮獲第三屆BiZ-WiZ杯華中地區(qū)大學生數(shù)學建模邀請賽二等獎。
韶關(guān)學院第九屆大學生課外學術(shù)科技作品競賽三等獎。
第十一屆“挑戰(zhàn)杯”廣東大學生課外學術(shù)科技作品競賽三等獎