1.痛點(diǎn)問(wèn)題
隨著圖在各領(lǐng)域的廣泛應(yīng)用,對(duì)圖上相關(guān)高效查詢方法的需求也與日俱增,特別是在社交網(wǎng)絡(luò)、金融、電商、安全和航天等眾多領(lǐng)域具有重要作用的子圖匹配查詢。
然而,現(xiàn)有子圖匹配方法在實(shí)際使用中速度均較慢,當(dāng)數(shù)據(jù)量較大時(shí),現(xiàn)有方法的時(shí)間開(kāi)銷巨大,難以滿足具體匹配過(guò)程中的時(shí)效性需求。同時(shí),這些方法沒(méi)有充分利用圖數(shù)據(jù)的本質(zhì)結(jié)構(gòu)特點(diǎn)進(jìn)行剪枝,在運(yùn)行效率上仍有較大的改進(jìn)空間。
2.解決方案
本技術(shù)提出一種基于社區(qū)結(jié)構(gòu)的子圖匹配方法,基于社區(qū)結(jié)構(gòu)在匹配過(guò)程中進(jìn)行剪枝從而加快子圖匹配的速度。流程圖如圖1所示。
圖1 本技術(shù)子圖匹配計(jì)算流程
首先,本技術(shù)識(shí)別數(shù)據(jù)圖中的社區(qū)結(jié)構(gòu),將數(shù)據(jù)圖劃分為若干“內(nèi)部緊密關(guān)聯(lián)、相互之間連接松散”的社區(qū)。接著,基于社區(qū)結(jié)構(gòu),提出三種優(yōu)化策略對(duì)子圖匹配過(guò)程進(jìn)行優(yōu)化,并實(shí)現(xiàn)了相關(guān)技術(shù)。
具體地,這三種優(yōu)化策略包括兩階段破對(duì)稱策略、基于社區(qū)路徑的剪枝策略和基于社區(qū)結(jié)構(gòu)的邊界剪枝策略。其中,兩階段破對(duì)稱策略利用模式圖中的自同構(gòu)映射,根據(jù)已得到的若干匹配結(jié)果推斷出新的匹配結(jié)果,從而減少匹配過(guò)程中的計(jì)算量;基于社區(qū)路徑的剪枝策略根據(jù)數(shù)據(jù)圖中的跨社區(qū)的路徑構(gòu)建索引,在匹配過(guò)程中提前發(fā)現(xiàn)無(wú)法產(chǎn)生匹配結(jié)果的匹配嘗試,減少匹配開(kāi)銷;基于社區(qū)結(jié)構(gòu)的邊界剪枝則考慮各社區(qū)的邊界節(jié)點(diǎn),即那些和其他社區(qū)的節(jié)點(diǎn)間有邊關(guān)聯(lián)的節(jié)點(diǎn),根據(jù)邊界節(jié)點(diǎn)的鄰居情況進(jìn)行剪枝,減小搜索空間,加快子圖匹配速度。
基于上述優(yōu)化策略,本技術(shù)提出的基于社區(qū)結(jié)構(gòu)的高效子圖匹配方法能根據(jù)給出的數(shù)據(jù)圖和模式圖快速返回子圖匹配結(jié)果。該技術(shù)可以作為模塊嵌入金融、電商和航天等已有軟件系統(tǒng),也可作為單獨(dú)軟件工具并支持二次開(kāi)發(fā)。
3.合作需求
1)應(yīng)用場(chǎng)景:在圖數(shù)據(jù)中快速查找滿足某種特定結(jié)構(gòu)的子圖結(jié)構(gòu),進(jìn)而作為查詢結(jié)果返回或用于后續(xù)深入分析。可用于包括但不限于社交網(wǎng)絡(luò)、金融、電商、安全和航天等眾多場(chǎng)景中。
2)資源對(duì)接:對(duì)圖查詢、圖分析有需求且對(duì)其高效性有要求的個(gè)人、單位和企業(yè)等。
隨著大量真實(shí)數(shù)據(jù)被建模成圖(如社交網(wǎng)絡(luò)、交通網(wǎng)絡(luò)等),圖數(shù)據(jù)庫(kù)及相關(guān)技術(shù)的熱度逐漸提升,對(duì)于圖的高效查詢與分析技術(shù)的需求也與日俱增。
本成果的目標(biāo)客戶包括圖數(shù)據(jù)庫(kù)、知識(shí)圖譜的使用者,對(duì)圖查詢、圖分析有需求且對(duì)其高效性有要求的個(gè)人、單位和企業(yè)等。本成果已在金融等領(lǐng)域有相應(yīng)應(yīng)用,具有一定的成熟度。
作為圖上基本且常用的查詢,子圖匹配在圖查詢和圖分析領(lǐng)域均有廣泛使用,且目前的子圖匹配方法的速度均較慢,難以滿足實(shí)際應(yīng)用中的時(shí)效性要求,因此對(duì)于高效的子圖匹配技術(shù)的需求相當(dāng)迫切。
本發(fā)明計(jì)劃在圖數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)管理技術(shù)領(lǐng)域進(jìn)行進(jìn)一步拓展,未來(lái)通過(guò)技術(shù)許可等方式在更廣泛領(lǐng)域進(jìn)行具體應(yīng)用。
已有主流子圖匹配方法主要包括TurboISO、VF3和DAF。使用這些方法在包含五萬(wàn)左右節(jié)點(diǎn)的圖上對(duì)五萬(wàn)全圖進(jìn)行子圖匹配時(shí),用時(shí)均超過(guò)100秒。本技術(shù)能在10秒內(nèi)找到所有匹配結(jié)果,在性能方面具有明顯優(yōu)勢(shì)。圍繞本技術(shù)已進(jìn)行了相關(guān)知識(shí)產(chǎn)權(quán)布局。
掃碼關(guān)注,查看更多科技成果