互联网社区核及完整社区提取策略

互联网社区核及完整社区提取策略

论文摘要

大连理工大学硕士学位论文摘要Web是现代人类共享数据和信息最重要的平台。挖掘Web自身的特性对理解和获得Web上的信息是至关重要的。Web最引人瞩目的特性在于它的自组织性:与同一主题相关的页面通过超链接紧密连接,在结构上体现为Web图上的稠密子图,又被称作社区。Web社区被定义为一组由兴趣小组创建的主题相关的页面集合。社区信息对Web研究是非常有价值:首先,社区反映了Web用户的社会行为、Web的演化历史以及Web上不同主题的相互联系;其次,社区是Web上中粒度的信息单元,为用户提供了关于一个主题最可靠的信息资源;在此,社区体现了Web上主题分布的特征,是利用Web结构信息提高Web搜索效率最有效的途径;最后,对Web自组织性的深入认识,结合语义Web的开发,可以使明天的Web更好地为人类服务。因此,能够自动识别并组织这些社区在分析Web的复杂结构中充当着重要的角色。此外,这些社区会大大地改善互联网用户获得信息的途径及效率。Web社区结构可以由稠密二分子图来表征。每一个Web社区都至少会包含一个社区核。一个社区核是一个完全二分图。为了克服现在社区核发现技术存在的参数难以确定的缺陷,本文基于组合合并技术,提出了一种新的社区核提取算法—C&C(Combination and consolidation)。实验表明该算法相对于现有算法,能更有效地提取社区核。首先,可以提取出Web中所有潜在的最大二分核;其次,提取所有不同大小的社区核只需要执行一次算法即可;此外,该算法不需要用户指定参数。基于已有的社区核,本文又提出了两步启发式策略从这些社区核获得完整的社区。首先,通过合并重叠的社区核获得社区的一个大致轮廓;其次,通过扩展包含被高度引用的结点逐步完善社区。真实数据集上的实验表明,最终得到的结果社区满足:社区成员之间的链接紧密;社区间链接稀疏。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 论文组织结构
  • 2 信息检索及Web数据挖掘相关研究
  • 2.1 信息检索
  • 2.1.1 信息检索概述
  • 2.1.2 Web信息处理
  • 2.1.3 信息检索评价
  • 2.2 Web数据挖掘
  • 2.2.1 Web数据挖掘综述
  • 2.2.2 Web数据挖掘分类
  • 2.2.3 Web数据挖掘在搜索中的应用
  • 2.3 链接分析
  • 2.3.1 链接分析的必要性
  • 2.3.2 超链接的结构特征
  • 2.3.3 Web的宏观介绍
  • 2.3.4 链接分析模型
  • 2.4 社区发现
  • 2.4.1 社区的定量定义
  • 2.4.2 社区识别算法
  • 2.4.3 社区发现算法
  • 2.4.4 社区相关技术分析
  • 3 C&C社区发现算法
  • 3.1 提取单位核
  • 3.2 合并单位核
  • 4 从社区核到社区
  • 4.1 勾勒雏形社区
  • 4.2 完善社区结构
  • 4.3 人工数据集分析
  • 5 算法平台设计及分析
  • 5.1 实验设计流程
  • 5.2 实验平台及数据预处理
  • 5.2.1 数据预处理
  • 5.2.2 数据结构
  • 5.3 Trawling算法实验设计
  • 5.4 社区核发现算法C&C的实验结果及分析
  • 5.5 社区核到社区的实验结果及分析
  • 5.6 评价最终社区
  • 5.6.1 社区主题相关性
  • 5.6.2 社区的传导率
  • 5.6.3 社区的模块度
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].特征提取策略对高分辨率遥感图像场景分类性能影响的评估[J]. 遥感学报 2018(05)
    • [2].基于知识图谱的学习资源核心概念提取策略分析[J]. 怀化学院学报 2020(05)
    • [3].巧用关键词提取策略 提高英语阅读教学效率[J]. 教师 2015(09)
    • [4].三峡左岸6号机组振动分析及量化征兆提取策略[J]. 水力发电 2012(04)
    • [5].注意资源、学习方式与年龄因素对协作抑制的影响[J]. 心理科学 2015(02)
    • [6].区域地理地图信息知识提取策略、模式[J]. 新课程(中) 2018(04)
    • [7].抗模糊特征提取策略下的车标识别[J]. 中国图象图形学报 2020(03)
    • [8].组织策略对学前儿童和大学生协作抑制的影响[J]. 中国临床心理学杂志 2013(06)
    • [9].协作抑制的作用机制:来自编码阶段的证据[J]. 心理科学 2014(03)
    • [10].心算加工策略的认知科学研究综述[J]. 江苏技术师范学院学报 2011(02)
    • [11].医学新闻关键词自动提取策略[J]. 中华医学图书情报杂志 2014(04)
    • [12].浅议高中英语限时写作中的词汇提取策略[J]. 校园英语 2014(21)
    • [13].图表题的信息提取策略[J]. 新高考(物理化学生物) 2008(04)
    • [14].大学英语听说教学的意义提取原则[J]. 江苏外语教学研究 2019(01)
    • [15].协作抑制的认知机制[J]. 心理科学进展 2013(05)
    • [16].基于派生谓词的STRIPS领域知识提取策略[J]. 软件学报 2011(01)
    • [17].粤西校园景观设计中雷州地域文化元素的提取策略[J]. 建材与装饰 2019(10)
    • [18].CRTER杂志学术探讨、病例报告、调查分析类稿件体例修改内容[J]. 中国组织工程研究与临床康复 2010(09)
    • [19].着眼知识链接,让学生自主叩开定向之门——自主定向课堂新尝试[J]. 数学教学通讯 2020(22)
    • [20].基于模糊-粗糙模型的逼近精度分类规则提取策略[J]. 系统工程理论与实践 2008(02)
    • [21].专业信息检索系统中索引项提取策略的研究[J]. 计算机技术与发展 2008(09)
    • [22].当放手遭遇尴尬……——从《解决问题的策略——转化》谈起[J]. 小学教学设计 2014(14)
    • [23].提取方法 指导阅读[J]. 新课程研究(下旬刊) 2014(07)
    • [24].高考主观题有效信息提取策略[J]. 长三角(教育) 2012(08)
    • [25].儿童除法策略的稳定性和变化性[J]. 价值工程 2010(05)
    • [26].生物学非选择题有效信息提取策略[J]. 中学生物教学 2015(23)
    • [27].高中英语限时写作中的词汇提取策略研究[J]. 新课程导学 2014(01)
    • [28].信息提取——低年级语文阅读教学新策略[J]. 语文世界(教师之窗) 2016(Z1)
    • [29].加减法问题大小效应的加工机制[J]. 心理科学进展 2008(06)
    • [30].协同视觉显著性检测方法综述[J]. 电子学报 2019(06)

    标签:;  ;  ;  ;  

    互联网社区核及完整社区提取策略
    下载Doc文档

    猜你喜欢