本發(fā)明公開了一種基于簽到數(shù)據(jù)的用戶行為軌跡聚類方法,所述方法包括:步驟1,獲取用戶簽到數(shù)據(jù);步驟2,對(duì)用戶簽到數(shù)據(jù)進(jìn)行預(yù)處理;步驟3:在綜合考慮了用戶簽到日期的邊際效應(yīng)和簽到次數(shù)差異的影響的基礎(chǔ)上,計(jì)算用戶在簽到位置上的簽到值;步驟4,初始化聚類中心,采用余弦相似性方法分簇;步驟5,重新計(jì)算聚類中心,采用余弦相似性方法重新分簇;步驟6,重復(fù)步驟5,直到滿足預(yù)設(shè)聚類精度的要求。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn): (1)本發(fā)明采用了一種基于簽到數(shù)據(jù)的用戶行為軌跡聚類方法,與K均值聚類算法比較,我們考慮了時(shí)間維度,將K均值聚類算法中點(diǎn)狀對(duì)象的相似性度量擴(kuò)展到線狀對(duì)象即用戶行為軌跡的比較。同時(shí),在定義用戶之間的余弦相似性時(shí),我們把簽到時(shí)間、日期因素引入到傳統(tǒng)的“用戶-簽到位置”矩陣,變成了“用戶-簽到時(shí)間(日期)-簽到位置”立方體。除此之外,在更新聚類中心時(shí),我們選擇了相似度和最大的用戶作為該簇新的聚類中心。 (2)為了體現(xiàn)用戶在不同位置上簽到次數(shù)存在差異的特點(diǎn)以及用戶行為軌跡的演化趨勢,我們?cè)诙x用戶的簽到值時(shí)充分考慮了用戶簽到日期的邊際效應(yīng)和簽到次數(shù)差異的影響,在同一位置上簽到次數(shù)越多,表示該位置在用戶行為軌跡中的重要程度越高,同時(shí),用戶的時(shí)空行為隨時(shí)間在不斷變化,簽到日期越接近當(dāng)前,越能反映用戶當(dāng)前的行為軌跡。通過綜合考慮以上因素,我們能夠更準(zhǔn)確地刻畫公眾出行的行為特征,從而為構(gòu)建基于智能手機(jī)的交通信息服務(wù)平臺(tái)奠定堅(jiān)實(shí)的基礎(chǔ)。
隨著我國國民經(jīng)濟(jì)的高速發(fā)展和城市化進(jìn)程的加快,交通擁堵已經(jīng)成為影響城市可持續(xù)發(fā)展的一個(gè)全局性問題。為了解決交通擁堵,國家對(duì)城市道路交通基礎(chǔ)設(shè)施和交通管理相當(dāng)重視,投入了大量的人力、物力、財(cái)力,經(jīng)過多年建設(shè),城市交通基礎(chǔ)設(shè)施已取得了很大的成就。但是,隨著汽車保有量的激增,交通基礎(chǔ)設(shè)施的建設(shè)已經(jīng)滿足不了交通發(fā)展的需要,城市道路擁堵和交通安全已成為迫切需要解決的難題。交通信息服務(wù)系統(tǒng)作為智能交通的重要組成部分,可以通過提供快捷、有效的道路交通流信息,方便公眾出行,緩解交通阻塞,提高道路通過能力,減少交通事故,降低能源消耗和減輕環(huán)境污染,滿足城市和諧與持續(xù)發(fā)展的需要。 公眾出行交通信息服務(wù)系統(tǒng)的本質(zhì)包括以下幾個(gè)方面:第一,在路網(wǎng)條件下,通過先進(jìn)的技術(shù)手段采集交通信息;第二,對(duì)采集到的動(dòng)態(tài)交通信息進(jìn)行處理并為公眾出行提供準(zhǔn)確、及時(shí)的道路交通流信息。資料表明,已經(jīng)建成的交通信息服務(wù)系統(tǒng)有電臺(tái)、可變情報(bào)板、網(wǎng)站、手機(jī)短信等多種渠道,交通信息的內(nèi)容也比較豐富和準(zhǔn)確,但對(duì)于交通管理者和出行者來說,目前的交通信息服務(wù)水平遠(yuǎn)遠(yuǎn)沒有達(dá)到交通參與者的需求。為了進(jìn)一步提高出行者的出行效率,降低交通擁堵,學(xué)術(shù)界和工業(yè)界近期提出了構(gòu)建基于智能手機(jī)的交通信息服務(wù)平臺(tái)的思想,希望通過對(duì)采集到的數(shù)據(jù)(如手機(jī)用戶簽到歷史數(shù)據(jù))進(jìn)行分析,準(zhǔn)確刻畫公眾出行的行為特征,從而為用戶提供合適的出行線路,其關(guān)鍵技術(shù)之一在于設(shè)計(jì)合適的基于用戶行為軌跡的聚類算法。