分布式医学搜索引擎的研究与实现

分布式医学搜索引擎的研究与实现

论文摘要

随着互联网技术的飞速发展,网络中的信息量呈爆炸式的增长。搜索引擎的出现解决了人们查找信息难的问题,但在面对某一专业领域的信息查询时,通用搜索引擎在追求更多的返回信息时,很难兼顾到搜索结果的准确度和相关性。于是主题(垂直)搜索引擎应运而生,它是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。作为医学行业来说,普通用户一方面希望能够从海量的医学信息中准确地找到想要的医学信息,另一方面也希望能够方便地查看到自己和家人的病历。于是,设计一个能够查询到整合个人看病历史和网络中海量医学信息的专业医学搜索引擎系统迫在眉睫。本文提出了医学搜索引擎的设想和设计,旨在开源搜索引擎Lucene思想的基础上设计并实现一个分布式垂直搜索引擎—医搜网,该搜索引擎支持大数据量索引和查询,并且解决了个人隐私和个性化推荐的问题。论文首先介绍了搜索引擎的发展历史及其关键技术;接着介绍了开源搜索引擎Lucene的框架、索引结构和查询过程以及网络编程中的一些基本知识;之后重点阐述了(1)医搜网的服务器架构及其实现细节;(2)医搜网的网页和个人看病历史的索引结构及其查询过程;(3)医搜网的网页查询、个人信息查询以及个性化推荐的运行效果;最后对本文所做的工作进行了总结,指出了课题需要改进的方向。本论文是在国家自然基金项目“泄漏电磁波认知及视频信息挖掘技术研究”资助下完成的,基金编号:61072136。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究的背景
  • 1.2 医学搜索引擎国内外研究现状
  • 1.2.1 国外医学搜索引擎
  • 1.2.2 国内医学搜索引擎
  • 1.3 研究的目的和意义
  • 1.4 论文的组织
  • 第二章 搜索引擎的基本知识
  • 2.1 搜索引擎的发展历史
  • 2.2 搜索引擎的分类
  • 2.3 搜索引擎的工作原理
  • 2.3.1 数据抓取
  • 2.3.2 建立索引
  • 2.3.3 检索器
  • 2.4 搜索引擎性能指标
  • 2.5 垂直搜索引擎技术分析
  • 2.6 本章小结
  • 第三章 Lucene的基本知识
  • 3.1 Lucene的简介
  • 3.2 Lucene的总体架构
  • 3.3 Lucene索引的数据结构
  • 3.3.1 Lucene索引文件的逻辑结构
  • 3.3.2 Lucene倒排索引原理
  • 3.4 Lucene的评分机制
  • 3.4.1 向量空间模型
  • 3.4.2 Lucene文档得分计算
  • 3.5 本章小结
  • 第四章 医搜网服务器的设计与实现
  • 4.1 网络编程基础
  • 4.1.1 套接字地址结构
  • 4.1.2 基本套接字函数
  • 4.1.3 进程与线程
  • 4.1.4 阻塞与非阻塞
  • 4.2 医搜网服务器的总体框架
  • 4.3 Web前端服务器的设计与实现
  • 4.3.1 login模块的设计与实现
  • 4.3.2 search模块的设计与实现
  • 4.4 代理服务器的设计与实现
  • 4.5 查询服务器的设计与实现
  • 4.6 本章小结
  • 第五章 医搜网搜索核心系统的设计与实现
  • 5.1 核心系统总体设计
  • 5.2 文档模块的设计与实现
  • 5.3 分词器模块的设计与实现
  • 5.4 索引模块的设计与实现
  • 5.4.1 全文索引的数据结构
  • 5.4.2 单字段索引的数据结构
  • 5.4.3 索引的创建过程
  • 5.5 查询模块的设计与实现
  • 5.6 本章小结
  • 第六章 系统的运行效果
  • 6.1 医搜网的网页搜索效果
  • 6.2 医搜网个人信息搜索和个性化推荐的效果
  • 6.3 本章小结
  • 第七章 总结与展望
  • 7.1 论文总结
  • 7.2 工作展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 相关论文文献

    标签:;  ;  ;  

    分布式医学搜索引擎的研究与实现
    下载Doc文档

    猜你喜欢