合作信息
社會網絡大數據分析系統
發布單位:清華大學
所屬行業:電子信息
合作信息類型:意向合作
機構類型:高等院校
供求關系:供應
合作信息期限:2016-12
參考價格:面議
0
收藏數
合作信息簡介
1成果簡介
社會網絡已經成為覆蓋用戶最廣、傳播影響最大、商業價值最高的Web2.0業務,在世
界范圍內,最著名的社會網絡代表是Facebook、Twitter,用戶量分別達到12億、5億;國
內使用人數最多的社會網絡工具是新浪微博和騰訊微博,其中新浪微博用戶達到5億,騰訊
微博用戶超過8億。社會網絡中的巨大用戶群每天產生海量的用戶數據、關系數據和信息數
據,若能夠對海量數據進行準確、及時的分析,則會在精確營銷、輿情探測以及網絡安全等
方面創造巨大價值。然而由于社會網絡的大數據特性以及分析方面要求準確、及時,目前缺
乏融合多項社會網絡分析技術的、成熟的社會網絡大數據分析系統。
社會網絡分析技術是一項關鍵技術,也是一項熱門的研究,涵蓋了社會學、人類學、社
會語言學、地理、社會心理學、通信研究、資訊科學、社會網絡分析與探勘、組織研究、經
濟學以及生物學等多個領域,是一項多學科交叉技術。社會網絡大數據分析系統要求具有堅
實的數據支撐,即數據獲取全面、更新及時、獲取數量大,也強調多維度、多粒度的分析手
段相結合,并對分析速度、可視化以及人機交互等方面都提出很高的要求。
基于上述現狀和挑戰,在國家科技支撐項目的資助下,實現基于新浪微博、Twitter等
主要社會網絡交流工具的大數據分析系統,系統完成從數據獲取、數據預處理、數據存儲、
消息中心、數據分析、結果可視化展示的閉環處理流程,支持多種社會網絡(Twitter、新浪
微博等)的數據實時、不間斷獲取,獲取數據量在國內外同研究領域處于領先地位;實現整
體、個體、群體以及事件的多層次、多粒度分析模式;同時具備良好的人機交互操作界面以
及優秀的分析展示效果。
系統的特點如下:
? 多手段數據獲取模式融合:采用網絡流量分析、API/非API爬蟲、元搜索以及增量
式爬蟲等多手段數據獲取模式相結合的方式進行數據實時、不間斷獲取,保證數據
獲取全面、更新及時、獲取量大;
? 多維度、多粒度數據分析手段結合:系統對社會網絡整體、個體、群體、事件四個
維度的對象進行分析,并結合基礎分析、深度挖掘的多粒度分析手段共同完成社會
網絡的數據分析;
? 多種關鍵技術支撐:系統融合機器學習、分布式并行處理、數據挖掘、自然語言處
理等多種關鍵技術,共同保證系統各項功能的穩定、快速實現;
? 優秀的分析展示效果和友好的人機交互操作:借助Gephi工具進行群體、事件等分
析效果的可視化展示,可視化效果清晰;操作便捷,實現用戶與系統、系統與數據
庫的無縫連接。
上述優點表明該系統能夠實現從數據獲取、數據預處理、數據存儲、消息中心、數據分
析、結果可視化展示的處理流程,達到完善的功能實現目標和優秀的系統運行效果。查新表
明,國內外目前尚未發現有如此功能全面與性能優越的社會網絡大數據分析系統。
性能參數:
? 能有效獲取社會網絡平臺的用戶數據、關系數據和信息數據,獲取覆蓋率不低于
85%;
? 分布式爬蟲支持不少于10個節點,分布式數據庫支持不少于5個節點;
? 數據庫讀/寫操作不少于并發1000次,數據預處理效率不小于1000條/秒;
? 數據存儲規模不小于7TB;
? 熱點信息(個體、群體、事件)發現準確率不低于75%,關鍵路徑發現準確率不低于
75%;
? 熱點話題發現準確性不低于80%,傾向性言論的發布主體發現準確率不低于75%;
? 信息傳播壽命預測準確率不低于80%。
2應用說明
2013年9月,利用社會網絡大數據分析系統進行數據獲取以來,獲取Twitter用戶數據
2.2億,用戶關系數據11.5億,推文1.2億,目前數據量仍處于不斷高速增長階段;著重獲
取社會網絡上中國人全集的數據,主要采用基于用戶屬性、用戶關系、用戶信息3層過濾機
制,通過特定團體獲取方式進行獲取,中國人用戶數據達到63萬,用戶關系數據510萬,
推文數據1740萬,目前中國人用戶數據已趨于穩定,推文數據仍處于快速增長階段。在獲
取到的數據基礎上,對網絡中個體、群體、事件以及整體進行基礎分析以及深度挖掘,能夠
快速識別關鍵個體、關鍵群體、熱點信息、熱點話題,并實現對信息、話題的情感分析、趨
勢預測等功能,同時也保證分析效果優秀的可視化展示。
3效益分析
由于目前國內外尚無同標準產品,而社會網絡大數據分析的需求比較迫切,因此本系統
具有較大的推廣空間。本系統價格每套150萬元。而本系統數據積累深厚、運行穩定、分析
功能全面、處理速度快、響應時間短。總體上,系統成本低、功能全、速度快,運行費每月
在3000元左右,具有明顯的經濟和技術優勢。
清華大學科技成果重點推廣項目
32
4合作方式
轉讓或者聯合推廣。
5項目所屬行業領域
電子信息。
社會網絡已經成為覆蓋用戶最廣、傳播影響最大、商業價值最高的Web2.0業務,在世
界范圍內,最著名的社會網絡代表是Facebook、Twitter,用戶量分別達到12億、5億;國
內使用人數最多的社會網絡工具是新浪微博和騰訊微博,其中新浪微博用戶達到5億,騰訊
微博用戶超過8億。社會網絡中的巨大用戶群每天產生海量的用戶數據、關系數據和信息數
據,若能夠對海量數據進行準確、及時的分析,則會在精確營銷、輿情探測以及網絡安全等
方面創造巨大價值。然而由于社會網絡的大數據特性以及分析方面要求準確、及時,目前缺
乏融合多項社會網絡分析技術的、成熟的社會網絡大數據分析系統。
社會網絡分析技術是一項關鍵技術,也是一項熱門的研究,涵蓋了社會學、人類學、社
會語言學、地理、社會心理學、通信研究、資訊科學、社會網絡分析與探勘、組織研究、經
濟學以及生物學等多個領域,是一項多學科交叉技術。社會網絡大數據分析系統要求具有堅
實的數據支撐,即數據獲取全面、更新及時、獲取數量大,也強調多維度、多粒度的分析手
段相結合,并對分析速度、可視化以及人機交互等方面都提出很高的要求。
基于上述現狀和挑戰,在國家科技支撐項目的資助下,實現基于新浪微博、Twitter等
主要社會網絡交流工具的大數據分析系統,系統完成從數據獲取、數據預處理、數據存儲、
消息中心、數據分析、結果可視化展示的閉環處理流程,支持多種社會網絡(Twitter、新浪
微博等)的數據實時、不間斷獲取,獲取數據量在國內外同研究領域處于領先地位;實現整
體、個體、群體以及事件的多層次、多粒度分析模式;同時具備良好的人機交互操作界面以
及優秀的分析展示效果。
系統的特點如下:
? 多手段數據獲取模式融合:采用網絡流量分析、API/非API爬蟲、元搜索以及增量
式爬蟲等多手段數據獲取模式相結合的方式進行數據實時、不間斷獲取,保證數據
獲取全面、更新及時、獲取量大;
? 多維度、多粒度數據分析手段結合:系統對社會網絡整體、個體、群體、事件四個
維度的對象進行分析,并結合基礎分析、深度挖掘的多粒度分析手段共同完成社會
網絡的數據分析;
? 多種關鍵技術支撐:系統融合機器學習、分布式并行處理、數據挖掘、自然語言處
理等多種關鍵技術,共同保證系統各項功能的穩定、快速實現;
? 優秀的分析展示效果和友好的人機交互操作:借助Gephi工具進行群體、事件等分
析效果的可視化展示,可視化效果清晰;操作便捷,實現用戶與系統、系統與數據
庫的無縫連接。
上述優點表明該系統能夠實現從數據獲取、數據預處理、數據存儲、消息中心、數據分
析、結果可視化展示的處理流程,達到完善的功能實現目標和優秀的系統運行效果。查新表
明,國內外目前尚未發現有如此功能全面與性能優越的社會網絡大數據分析系統。
性能參數:
? 能有效獲取社會網絡平臺的用戶數據、關系數據和信息數據,獲取覆蓋率不低于
85%;
? 分布式爬蟲支持不少于10個節點,分布式數據庫支持不少于5個節點;
? 數據庫讀/寫操作不少于并發1000次,數據預處理效率不小于1000條/秒;
? 數據存儲規模不小于7TB;
? 熱點信息(個體、群體、事件)發現準確率不低于75%,關鍵路徑發現準確率不低于
75%;
? 熱點話題發現準確性不低于80%,傾向性言論的發布主體發現準確率不低于75%;
? 信息傳播壽命預測準確率不低于80%。
2應用說明
2013年9月,利用社會網絡大數據分析系統進行數據獲取以來,獲取Twitter用戶數據
2.2億,用戶關系數據11.5億,推文1.2億,目前數據量仍處于不斷高速增長階段;著重獲
取社會網絡上中國人全集的數據,主要采用基于用戶屬性、用戶關系、用戶信息3層過濾機
制,通過特定團體獲取方式進行獲取,中國人用戶數據達到63萬,用戶關系數據510萬,
推文數據1740萬,目前中國人用戶數據已趨于穩定,推文數據仍處于快速增長階段。在獲
取到的數據基礎上,對網絡中個體、群體、事件以及整體進行基礎分析以及深度挖掘,能夠
快速識別關鍵個體、關鍵群體、熱點信息、熱點話題,并實現對信息、話題的情感分析、趨
勢預測等功能,同時也保證分析效果優秀的可視化展示。
3效益分析
由于目前國內外尚無同標準產品,而社會網絡大數據分析的需求比較迫切,因此本系統
具有較大的推廣空間。本系統價格每套150萬元。而本系統數據積累深厚、運行穩定、分析
功能全面、處理速度快、響應時間短。總體上,系統成本低、功能全、速度快,運行費每月
在3000元左右,具有明顯的經濟和技術優勢。
清華大學科技成果重點推廣項目
32
4合作方式
轉讓或者聯合推廣。
5項目所屬行業領域
電子信息。