WEB环境下的社会网络挖掘研究

WEB环境下的社会网络挖掘研究

论文摘要

社会网络研究是理解社会现象,预测人类行为,分析社会结构的重要工具。进入Web 2.0时代以来,庞大的Web用户群体、频繁的Web用户互动和海量的Web内容构成了巨大的Web社会网络,使Web环境下的社会网络挖掘成为信息技术领域的新热点问题。在Web环境下进行社会网络挖掘对于理解Web用户的行为模式,改进各种Web应用如推荐、信息检索、网络舆情监测等系统的效果,从而带来更好的用户体验,提高社会生产效率具有重要的作用。Web环境下的社会网络挖掘需要面临以下几个主要的问题。首先,Web中的社会网络是隐含的、模糊的;其次,Web数据中包含着用户创造的海量内容,具有丰富的语义;第三,Web数据中有大量垃圾内容和垃圾链接;第四,Web数据的高度异构和类型繁杂使得Web上的社会网络不能用单一类型的节点和单一类型的关系来描述.研究Web环境下的社会网络挖掘需要重点解决以上这些问题。本文主要研究目标是Web上的文本数据,针对Web隐含的模糊的社会网络问题,Web社会网络的丰富语义问题,Web垃圾内容问题,以及多关系和多节点类型的多模社会网络问题,通过对用户行为的分析,采用基于矩阵的、基于生成模型的和基于马尔可夫链的Web社会网络建模方法,以达到抽取隐含社会网络、理解社会网络语义、识别垃圾内容、评测数据质量和挖掘多模社会网络的目标,并实现专家检索等Web应用。本文的研究对象包括Web论坛和企业、学术领域的数据。采用线程讨论的Web论坛是Web上宝贵的海量知识库,企业、学术领域数据包含大量专业知识,他们是进行数据挖掘和知识发现的重要对象。Web论坛中具有大量的垃圾内容。企业、学术领域数据中具有多种类型的实体和关系。针对这两个数据源,本文的研究工作和创新内容包括:用户行为分析在网络论坛中,用户发帖参与讨论,由此和其他用户进行密切的互动。为了更好的理解网络论坛中用户的社交行为和发文行为,本文通过大量统计分析,发现论坛用户的发帖数量和质量差异很大,揭示论坛社会网络的回复关系、好友关系和相识关系对于论坛用户的兴趣传播和专家知识传播具有明显作用。基于稀疏编码的论坛数据建模线程讨论具有结构和语义同步变化,相互影响的特性。针对现有的研究工作普遍对语义和结构分开建模的问题,提出基于矩阵的SMSS模型,同步的对线程讨论的结构和语义建模。同时,针对线程讨论中语义和结构的稀疏性,即每个帖子只覆盖少数几个主题、以及每个帖子只回复讨论线程中的少数几个帖子等特性,提出引入L1正则项在模型中对结构和语义进行约束。该模型能够抽取出较为精确的社会网络、能够较好的解决Web社会网络的丰富语义和数据质量问题,在垃圾内容识别和专家检索等应用中取得了较好的结果。基于生成模型的论坛数据建模方法针对SMSS模型对于垃圾内容识别和专家检索的解决方案较为直接简单的问题,本文同时提出基于生成模型的论坛数据建模方法。在PLSA的优化目标中加入反映帖子结构关系的正则项,以刻画线程讨论的结构和语义同步变化互相影响的特性:针对LDA模型不能准确刻画垃圾主题的问题,提出引入垃圾主题,以区别于有意义的主题;针对论坛作者发帖质量不同的问题,引入作者的发帖模式约束帖子的生成过程;针对现有专家检索模型对未观测到词的概率估计不准确问题,引入在上述模型中学习到的主题,扩展专家生成查询的过程;针对发帖数量很多但质量很低的噪声作者问题,在专家检索排序中引入作者的发帖模式信息;上述模型成功应用在语义解读、垃圾内容识别和专家检索中。基于马尔科夫链的多模社会网络建模方法企业、学术领域中存在多种类型的实体,如作者、论文、个人主页等,以及多种类型的关系如引用关系、合作关系等。为了能够更好的利用类型信息,调整类型的影响强弱,本文针对多模网络上的专家检索问题,提出在Web数据中抽取多模网络的框架;通过在文本中根据给定查询自动生成转移概率矩阵,基于马尔可夫链对专家进行排序;针对在多模网络上的马尔可夫过程计算到达专家节点的概率问题,提出在多模网络上的马尔可夫随机游走过程,并证明该过程是遍历不可约的;针对在如Enterprise和学术领域的应用场景中专家检索的实际需求,提出在社团中的专家检索问题,并提供解决方案。上述模型在专家检索和社团中的专家检索等应用中取得了较好的结果。

论文目录

  • 目录
  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 社会网络分析的定义
  • 1.1.2 社会网络分析的意义
  • 1.1.3 Web时代的社会网络研究的意义
  • 1.1.4 Web时代社会网络研究的关键问题
  • 1.2 本文主要工作
  • 1.2.1 研究目标与研究内容
  • 1.2.2 本文结构
  • 第二章 相关工作
  • 2.1 结构分析方法
  • 2.1.1 社会网络节点排序问题
  • 2.1.2 网络的划分问题
  • 2.2 内容分析方法
  • 2.2.1 语言模型
  • 2.2.2 PLSI
  • 2.2.3 基于狄利克雷分布的生成模型
  • 2.3 相关应用
  • 2.3.1 社会网络抽取
  • 2.3.2 专家检索
  • 2.3.3 内容质量预测
  • 第三章 论坛用户行为分析
  • 3.1 实验设置
  • 3.2 用户发帖行为分析
  • 3.3 用户社交行为分析
  • 3.4 小结
  • 第四章 基于稀疏编码的论坛数据建模方法
  • 4.1 引言
  • 4.2 SMSS模型
  • 4.2.1 SMSS模型的基本思想
  • 4.2.2 SMSS模型的解
  • 4.3 应用
  • 4.3.1 回复关系重构
  • 4.3.2 垃圾贴识别
  • 4.3.3 专家检索
  • 4.4 实验
  • 4.4.1 实验设置
  • 4.4.2 回复关系重构
  • 4.4.3 垃圾贴识别
  • 4.4.4 专家检索
  • 4.5 结论和后续工作
  • 第五章 基于生成模型的论坛数据建模方法
  • 5.1 SCPLSA模型
  • 5.1.1 模型描述
  • 5.1.2 模型的解
  • 5.2 JTM模型和CJTM模型
  • 5.2.1 JTM模型描述
  • 5.2.2 JTM模型的解
  • 5.2.3 CJTM模型
  • 5.3 专家检索
  • 5.4 实验
  • 5.4.1 主题词语分布
  • 5.4.2 垃圾贴识别
  • 5.4.3 专家检索
  • 5.5 小结
  • 第六章 基于马尔可夫链的多模社会网络建模
  • 6.1 引言
  • 6.2 RET模型
  • 6.2.1 转移概率
  • 6.2.2 专家测度
  • 6.3 多模网络上的REC模型
  • 6.3.1 模型描述和解法
  • 6.3.2 抽取多模网络框架
  • 6.4 社团中的专家检索
  • 6.5 实验
  • 6.5.1 实验设置
  • 6.5.2 个案讨论
  • 6.5.3 单模网络上的模型参数
  • 6.5.4 多模网络上的REC模型评测
  • 6.5.5 算法运行效率
  • 6.6 小结
  • 第七章 总结与展望
  • 7.1 本文成果
  • 7.2 进一步工作
  • 参考文献
  • 发表文章目录
  • 致谢
  • 相关论文文献

    • [1].对社会网络中知识流动的逻辑研究[J]. 湖北大学学报(哲学社会科学版) 2019(02)
    • [2].基于社会网络的农民同乡帮带自雇创业模式研究——基于油篓村的案例分析[J]. 劳动保障世界 2019(18)
    • [3].认知能力、社会网络与创业选择[J]. 世界经济文汇 2019(04)
    • [4].当代大学生创业中的社会网络分析[J]. 法制博览 2017(35)
    • [5].社会网络对大学生创业学习的影响研究[J]. 中国集体经济 2018(03)
    • [6].“雪中送炭”还是“锦上添花”?——社会网络对消减数字化贫困的价值探究[J]. 中国图书馆学报 2018(02)
    • [7].社会资本视域下的校园足球推进策略[J]. 上海体育学院学报 2018(04)
    • [8].返乡创业农民工对社会网络的有效利用[J]. 农村经济与科技 2018(15)
    • [9].赋权和社会网络双视角下老漂族幸福生活的实现[J]. 新闻传播 2016(24)
    • [10].创业企业如何构建社会网络[J]. 清华管理评论 2016(12)
    • [11].二次创业的社会网络反哺动态机理研究[J]. 武汉理工大学学报(信息与管理工程版) 2016(05)
    • [12].社会网络视角下的大学生就业指导对策研究[J]. 长江丛刊 2016(33)
    • [13].元代教育家程端礼的社会网络[J]. 珞珈史苑 2016(00)
    • [14].为谁[J]. 语文教学与研究 2017(27)
    • [15].社会网络与集体行动[J]. 比较政治学研究 2014(02)
    • [16].市场化、社会网络与一般信任[J]. 中南大学学报(社会科学版) 2019(02)
    • [17].谁从社会网络中获益更多?——社会网络的差异性回报研究[J]. 西安交通大学学报(社会科学版) 2019(04)
    • [18].家庭社会网络与就业质量——基于2009-2015年“全国高校毕业生就业状况调查”的分析[J]. 金融研究 2019(10)
    • [19].混合式移动社会网络及消息分发机制综述[J]. 智能计算机与应用 2018(06)
    • [20].会计稳健性、高管社会网络与企业创新——来自中国上市公司的经验证据[J]. 财经理论与实践 2017(03)
    • [21].基于社会网络视角的依恋方式与领导成长关系研究[J]. 软科学 2017(09)
    • [22].创业者社会网络行为的研究评述与展望[J]. 当代经济 2016(11)
    • [23].社会网络环境下商务英语教学模式探讨[J]. 校园英语 2018(33)
    • [24].作为动员结构的网络:社会网络、虚拟网络与抗争动员[J]. 复旦政治学评论 2012(00)
    • [25].支持与束缚:传统社会网络与地下“性产业”中的女性——以《生存与体验——对一个地下“红灯区”的追踪考察》为例[J]. 社会科学论坛(学术研究卷) 2009(07)
    • [26].社会转型过程中社会网络资本的变迁[J]. 社会 2008(03)
    • [27].创业企业社会网络进化及其成效[J]. 企业改革与管理 2008(07)
    • [28].加权社会网络中的个性化隐私保护算法[J]. 计算机技术与发展 2016(08)
    • [29].家庭社会网络与股市参与[J]. 世界经济 2015(05)
    • [30].认清网络找准位置[J]. 风流一代 2019(36)

    标签:;  ;  ;  ;  ;  

    WEB环境下的社会网络挖掘研究
    下载Doc文档

    猜你喜欢