大型中文搜索引擎的架构与设计技术

大型中文搜索引擎的架构与设计技术

一、大规模中文搜索引擎的架构和设计技术(论文文献综述)

陈秋瑾[1](2021)在《基于微服务架构与知识图谱技术构建无人机知识库系统》文中进行了进一步梳理近年来,随着无人机技术的飞速发展以及逐年上涨的市场需求,无人机在各领域得到广泛应用且发挥着重要作用。随着“互联网+”时代的到来以及大数据技术的迅速发展,互联网中信息数据呈现指数增长趋势,如何在信息爆炸的时代获取所需的有效信息成为亟待解决的问题。本文采用B/S服务器模式,以分布式微服务架构为基础,基于分布式及增量式爬虫技术获取互联网中与无人机等应用领域相关的海量数据,采用自然语言处理、知识图谱、机器学习等算法从海量的非结构化文本数据中提取挖掘隐含及潜在价值知识,并利用Echarts组件及知识图谱等算法进行可视化分析,最后形成定制化的无人机知识库。主要研究内容如下:(1)知识获取及存储技术。系统以Scrapy为爬虫框架,采用分布式结合增量式爬虫技术从互联网中高效地获取无人机行业相关的海量数据;采用Redis高速缓存数据库存储爬取的URL网址,结合My SQL关系型数据库稳定地存储最终得到的结构化数据。(2)系统构建流程及架构设计。利用云计算技术的大数据管理平台,基于分布式服务器与大数据技术搭建系统,采用自底向上为主、自顶向下为辅的方式构建知识库;由于系统爬取任务量的增加及分布式服务器的需求,系统的架构也由最初的SMM单体式架构优化升级为Spring Cloud分布式微服务架构,以提高系统的扩展性及移植性。(3)数据提取及知识抽取技术。采用类机器学习机制半自动化地提取非结构化文本数据,通过构建自定义的规则库训练样本数据,提取出标签以匹配提取出的结构化数据;并利用自然语言处理等算法从获取的文本数据中提取关键句并生成文章的摘要信息;通过知识图谱等算法实现对获取的文本数据的知识抽取,最终抽取出结构化的知识元加入进知识库中,以实现知识库的知识发现与知识挖掘功能。(4)知识表示及数据可视化分析。采用知识树形式进行知识表示,并采用Echarts技术、知识图谱等可视化技术对获取及处理后的数据进行数据可视化分析,并以各类统计图表、关键字云图、机构同现及作者同现图等形式展现,直观清晰地展示无人机等行业领域的研究现状与发展趋势。

刘欣[2](2021)在《语句意图匹配方法研究》文中研究说明语句意图匹配方法是自动问答和信息检索等系统的核心技术,主要用于判断两个语句中的语义意图匹配程度,在实际应用中具有重要价值。近几年随着深度学习的兴起,相关方面研究获得了突破性进展。尽管深度学习方法在语句意图匹配中得到广泛应用,其仍然面临以下挑战:1)训练样本不足的问题,很多实际应用领域难以提供足够的训练样本;2)由于语句表达的灵活多变,模型对语句中意图信息的有效编码受到一定限制;3)词语语义的多义性在现有的模型中没有得到足够的重视,限制模型性能的进一步提升;4)特定应用场景下参与匹配的语句关系复杂,使得特定场景下通用意图匹配方法无法有效适用。本文主要针对以上问题开展研究,主要内容包括以下几个方面:第一,针对训练样本不足的问题,提出基于无监督方法的问句意图匹配语料的构建方法。在语料的构建过程中,本文首先使用搜索引擎收集大规模的多领域问句对;其次,使用无监督距离算法过滤不相关的问句对;最后,具有专业背景的数据标注者对剩余的问句对进行意图是否匹配的人工标注,得到包含260 068个问句对的问句意图匹配语料。同时,本文将语料划分成训练集,验证集和测试集并使用已发布的的语句意图匹配算法进行实验,实验结果不仅证明了本文方法构建的大规模中文问句意图匹配语料的良好质量,而且还提供了可靠的基线性能以进一步研究该语料。第二,针对模型难以对语句中意图信息进行有效编码问题,提出基于语句差异性特征的匹配方法。该方法首先将语句对中的差异词汇抽取出来,其次使用神经语言模型对差异词汇进行编码,得到语句差异性特征,最后通过门控机制将语句差异性特征整合到基准意图匹配方法中。在国际开放的大规模中文问句意图匹配语料和英文问句意图匹配语料上进行实验。实验结果表明,本文提出的方法可以有效地学习到语句中的意图差异性信息并提升意图匹配性能,在各类评价指标上均优于已发表的基线意图匹配方法。第三,针对词语语义信息表示存在多义性的问题,提出了面向意图匹配的词向量分解词义学习方法。该方法首先将语句中的一个多义词转换为词向量表示,并使用胶囊神经网络对词向量进行分解得到多个类义素向量。其次,使用神经语言模型对语句进行上下文编码得到上下文信息表示。最后,使用注意力机制将上下文信息表示与多个类义素向量进行注意力整合,生成特定上下文的词义向量。本文将学习到的词义向量应用到英文问句意图匹配语料上进行验证,实验结果表明,相比于无监督词向量,该方法学到的词义向量能够更准确地捕捉到词语的语义,从而进一步提升意图匹配模型的性能。第四,针对通用意图匹配方法在特定场景下的匹配语句中性能受限问题,提出基于意图的领域内知识与文本匹配方法。该方法基于医学知识和医学文本中的意图信息,使用关系和主题胶囊网络,分别对医学知识中的关系特征和医学文献中的主题特征进行学习,并将学到的关系和主题特征作为意图信息融入到匹配算法中。在医学文献检索任务上使用人工标注的匹配数据集和排序数据集对该方法进行验证。实验结果表明,在各项评价指标上,该方法均优于已公开的不同类型基线方法。证明了医学知识和医学文本匹配语句中包含有效意图匹配信息,并且这些信息可以通过该方法融入到通用匹配模型中,进一步增强模型在医学信息检索中的匹配性能。综上所述,本文围绕语句意图匹配方法进行深入研究和讨论,针对意图匹配方法中存在的四个问题,分别提出意图匹配数据构建方法,基于语句差异性特征的匹配方法,面向意图匹配的词向量分解词义学习方法和基于意图的领域内知识与医学文本匹配方法。通过大量实验,在各自对应的数据集上进行验证,最终均取得了较优性能。

林茹[3](2021)在《面向博客的分布式垂直搜索引擎的设计与实现》文中认为判断一个搜索引擎的成功与否,用户对搜索结果的满意度起了关键作用。由于通用搜索引擎搜索到的内容数量过多,且相关率低、重复率高、内容复杂,用户如果想要在通用搜索引擎中查询某一领域或专业的相关网页,检索过程还需花费大量精力去排除无用信息。垂直搜索引擎的出现正是为了解决这一问题。传统搜索引擎在博客网页信息数据的搜索上效率不高,不能满足想搜索特定博客用户的需求。本文重点研究了搜索引擎中网页相关性排序算法的改进和新词发现算法的改进实现,在此基础上提出了一种面向博客的分布式垂直搜索引擎,对博客网页信息进行获取分析,建立网页索引,并结合用户历史搜索记录,进行了面向博客网页的分布式垂直搜索引擎的设计与实现,提高检索效率和检索准确率。本文主要的创新点及工作如下:(1)针对目前搜索引擎搜索结果排序算法存在的准确率低,排序质量低的问题,改进网页相关性排序算法,结合博客网页的特点,提出了基于BM25相关度的网页排序算法,通过基于锚文本的PageRank算法对网页链接权重进行重分配,同时利用博客网页自身相关属性对搜索结果进行综合排序,提高对新网页的重视;(2)针对目前基于互信息和邻接墒的新词发现算法存在的误分、效率低等问题,使用Trie构建索引树提高搜索效率,同时加入N-Gram模型对分词后的碎片进行拼接,增加长词语的识别;对基于N-Gram模型的拼接词通过内部凝固度和左右邻接墒的计算得到新词;(3)进行搜索引擎系统的详细设计与具体实现。本系统实现的模块包括网页爬虫模块、数据索引模块,以及用户搜索模块,通过对互联网上的网页进行爬取分析,建立数据索引,实现关键词提示、网页搜索结果排序以及网页个性化推荐功能。系统设计与实现过程中主要使用到的相关技术包括网页去重算法、Elasticsearch框架、新词发现算法、网页排序算法、网页推荐算法等。(4)在进行了搜索引擎系统设计与实现后,通过多方面的测试与分析,验证了本系统的实用性、有效性以及实时性。通过对搜索结果的重排序,返回给用户更满意的结果,改善用户体验。

刘源[4](2021)在《基于知识图谱的医疗问答系统》文中指出搜索引擎的出现和发展为人们信息检索带来了极大的便利,用户在医疗健康领域的搜索需求逐年增加,而当前的搜索引擎返回结果多是相关页面,用户仍需要对返回的结果进行辨别和筛选。问答系统为上述问题提供了一个解决思路,可以为用户提供医疗咨询服务,但是当前已有的几种医疗咨询服务存在内容主观性强,医生和患者交流效率低等问题。本文研究并实现了基于知识图谱的医疗问答系统,建立深度学习的模型理解用户问题,并在由大量医疗数据构成的知识图谱中检索出答案,相比搜索引擎返回的结果,更加贴合用户的检索需求。问答系统的核心是对用户自然语言的理解,将用户提出的问题转化为信息词和用户意图,因此在具体实现过程中将该任务分解为医疗实体识别和问句分类两个子任务。本文工作内容主要包含以下几个方面:(1)医疗知识图谱的构建。问答系统实现的数据基础是知识图谱,利用爬虫技术在多个医疗信息平台收集原始数据,通过知识抽取,知识融合和知识存储三个过程完成医疗知识图谱的构建,融合多个数据源中的医疗知识,提高了知识图谱的质量。(2)研究如何从问句中识别出医疗相关的实体,在原有的Bi LSTM-CRF模型中引入预训练语言模型完成该任务,通过实验证明该方法准确率在自建的医疗问答数据集上和CCKS2017电子病历数据集上均有提高。(3)研究如何在医疗问答场景下对问句进行分类来确定用户意图。针对已构建好的数据集特点建立了BERT-softmax模型,通过BERT模型获取特征向量,softmax层进行归一化处理得到对应分类,相比于其他的几种文本分类模型,在自建的医疗问答数据集上分类效果得到了大幅提高。(4)在以上三个工作内容的基础上对问答系统进行了设计和实现,共9个功能模块。问答系统分为供用户使用的微信小程序和供管理员使用的问答管理系统两部分,用户通过微信小程序入口进入咨询页面即可输入问题进行提问,实现了人机交互,支持医疗相关问题咨询,管理员可通过管理系统对问答系统相关的功能进行管理和配置,并支持对已有的知识图谱进行更新。

张擎天[5](2021)在《网络文件下载信息搜索及追踪系统》文中提出互联网兴起至今不过30年,已经发展成为一个庞然大物,互联网提供的服务从最初的文本浏览到今天的各种纷繁的功能业务,其核心都避不开文件的传输即下载,文件下载在为用户带来便利的同时也带来了在线盗版文件下载。而且近年来随着我国网络基础设施的快速发展,网速出现了飞跃性的进步,盗版文件的传播也变得更加快速,盗版文件的下载出现了传播量大、有效时间短的特点。基于以上因素,本文提出了一种主要面向盗版下载文件的下载信息搜索和下载来源追踪的系统(ISTS-NDF Information Searching and Tracking System of Network Downloading File)。针对盗版文件相关问题,本文将系统功能拆分,实现了三个不同功能的子系统。本文中:1.实现了一系列爬虫,将网页爬取的过程拆分成不同阶段和功能,分别实现了遍历、解析、登录、回复等功能的爬虫,解决了人机验证保护下的深层网页的信息收集问题。2.本文针对网页正文提取的多种特征,分离了爬虫与爬虫分析网页的代码,实现了基于平均采样的爬虫代码与网站的动态匹配算法和动态代码加载,可对同类型的网站进行爬虫代码匹配,减少人工编写代码的工作量。3.为了收集大量的盗版文件信息,本文在单机爬虫基础上设计了一种分布式爬虫系统方案。该方案实现了一种基于爬虫历史爬取性能数据的权重轮询任务规划算法,解决分布式系统中节点任务规划问题。实现了基于布隆过滤器算法的大规模网页去重与增量爬取功能,使用Docker虚拟化技术实现了节点的自动部署、自动代码更新,基于Scrapyd技术实现了节点的状态监控,冗余备份,节点失效的自愈功能,完成了一个工业化的分布式爬虫系统,为大规模的网络信息收集提供了可能性。4.在收集下载文件信息的基础上,本文设计实现了一种下载文件的追踪子系统,可对直接下载、网盘分享、P2P下载的三种文件分享形式进行不同程度上的有效性的确认和来源追踪,可以为执法者和相关研究者提供数据上的支持。5.本文设计实现了一个简洁的系统数据展示和系统功能管理的子系统,使用流行的前后端技术实现该子系统,做到了前后端分离。

叶蕾[6](2021)在《基于知识图谱的档案智能语义检索关键技术研究与实现》文中研究指明档案资源的合理利用离不开检索系统的支持。传统的检索系统通常采用全文检索技术,其本质是关键词的逐个匹配,无法理解用户的检索意图。在新形势下,随着档案资源指数级增长,现有检索平台和系统无法高效利用档案信息,更不能实现个性化档案检索需求。针对这些问题,该文将知识图谱引入档案领域,研究基于本体的档案知识图谱构建技术,用于理解用户检索意图。其次通过研究用户偏好模型,提出基于知识图谱的个性化档案语义检索,最后创新性地集成自然语言处理相关技术,如语音识别、语义分析等,设计并实现了一个智慧档案语义检索系统。该文主要工作如下:1.基于事件本体的档案知识图谱构建。基于关键字匹配技术只能进行词形的机械匹配,知识图谱有助于从语义的角度理解用户的检索意图。该文以知识图谱技术与档案知识相结合,提出基于大规模档案领域知识图谱的构建方法与流程,根据档案的事件单一性,提出基于事件的档案本体建模框架。并进一步探讨了档案知识抽取模型、知识图谱存储与检索等关键技术。其中抽取模型采用的是Bi-LSTM-CRF模型和远程监督关系抽取算法结合的方法进行搭建,知识图谱的存储选择的是图数据库Neo4j进行存储。2.基于个性化的档案知识搜索引擎。针对不同用户提供个性化服务的检索引擎是面向档案检索的一个重要需求。该文根据当前用户的语义检索查询行为,记录其语义查询行为偏好,建立用户的个性化查询行为偏好模型;然后利用其已经构建好的个性化知识分析图谱,对语义检索关键词进行个性化的语义查询偏好分析,进而理解用户的查询意图;最后提出了其个性化的关键词排序分析检索算法。实验结果显示个性化语义搜索引擎极大提高检索的精确度。3.智慧语义档案系统平台的设计与实现。该文利用自然语言及语音处理相关技术,集成知识图谱与个性化语义检索框架,实现了一个智慧档案语义检索系统。该平台实现了前台检索与后台管理。其中前台检索功能包括:档案数据检索、档案问答及其知识的展示与数据分析。后台管理实现了对数据的采集、知识图谱构建、个性化模型及数据展示与分析等功能。该平台采用W/B架构,支持对档案知识的共享管理和利用。该系统可以在语义层面,对用户的检索请求做出响应,带给用户的良好的检索体验。

李旨赟[7](2020)在《基于医疗知识图谱的自动问答系统研究与实现》文中研究指明云时代的到来极大地改变了人们的生活,随着信息技术与人工智能的蓬勃发展,人们的医疗健康需求也在不断提升。因此,如何构建一个简单实用且大众化的疾病诊疗系统为百姓的医疗健康造福成为智慧医疗研究与应用的关键。传统的医疗搜索引擎技术通过关键词索引相关网页,效率低下,需要人工智能来改变现状。知识图谱作为人工智能的分支,起步较晚,而问答系统作为知识图谱的应用方向,其发展尚不够完善,因而使得智能化医疗研究工作复杂且难以开展。本文由此出发,设想收集并整理大量医学领域数据,构建一个可维护的大规模医疗知识图谱,同时研究总结知识图谱和问答系统的关键技术,将其整合优化,设计并实现一个辅助医疗产品,即基于医疗知识图谱的自动问答系统,并将其作为第一道防线来守护人们的健康生活。本文的研究工作主要包括:(1)针对复杂分散的医疗领域信息数据,着重研究如何获取、处理、融合、存储多源数据集,将海量的医疗数据集整合优化,来构建一个可靠的医疗知识图谱为系统所用。设计了交替结合法来预先定义实体、关系及属性,并将本体思想引入数据模式构建,使得知识图谱的构建变得更为便捷。提出基于混合数据库的存储方案来提供知识图谱的高效率存储,描述知识图谱的构建全过程。(2)针对人们复杂多样的医疗问题,提出适用于医疗服务的问答系统解决方案,首先设计系统工作流程,主要包括问题解析和答案查询构造方案。接着设计了基于模板匹配的问题模型与解析方法,并提出由编辑距离、字符重叠系数和词向量构成的语义相似度计算方法,设计改进方案,该方法经过实验证实可有效抽取词典外语义近似的疾病与症状实体。考虑到数据库查询目标问题,设计了意图识别的多分类模型方法,在测试实验中,该多分类模型的最佳F1值达到了0.95,说明该多分类器对于解决用户输入信息的查询意图具有很好的效果。(3)针对当前服务于医疗问答的搜索引擎技术落后的问题,将医疗知识图谱与问答技术整合优化,进行智能医疗问答系统的搭建与实现,最后进行系统的响应时间和性能测试与分析,证明本文研究并实现的自动问答系统适用可行,且具有一定应用价值。

胡晓峰[8](2020)在《基于Solr的新媒体稿件检索系统研究与设计》文中认为随着近年来互联网和移动互联网的兴起,新媒体也取得了蓬勃发展,新媒体文章和稿件也呈现爆发式增长的趋势。面对海量和多种格式的新媒体数据信息,如何在这样大规模的数据信息中快速和准确地找到所需要的稿件信息成为自媒体用户所面临的一个问题。本文根据以上问题和需求,基于Spring+SpringMVC+Hibernate的架构进行设计开发,结合了 Solr搜索引擎服务和百度语音识别工具,提出了一种B/S架构的新媒体稿件检索系统,系统使用Java作为开发语言进行实现。本文重点分析了系统架构设计中使用的关键技术和策略,开发设计了基于Solr的新媒体稿件检索系统,主要包括预处理,构建Solr系统,用户查询和数据库几部分。本文以开源搜索引擎Solr作为系统的核心,研究了搜索引擎核心技术索引的实现原理。为了保证分词的效率和质量,研究了分词的算法以及各种中文分词器的性能对比,为了方便Solr使用文本构建索引,研究了将非文本文件进行文本转化的方法。本文研究的主要创新点如下:第一,由于传统的关系型数据库无法满足能够应对庞大的实时请求,且关系数据库对中文的全文检索效果不佳,需要使用企业级搜索引擎来解决搜索的问题。Solr作为企业级搜索引擎,其强大的全文检索功能能够满足企业搜索的需要。开发者基于Solr搜索引擎服务的框架上进行开发,利用其稳定的搜索框架,只需要开发上层的业务逻辑而不需要负责底层实现逻辑,缩减了开发周期和开发成本,提高了系统的稳定性。第二,鉴于新媒体稿件当中包含大量图片,音频,视频等多媒体文件,本系统将Solr快速索引和成熟的百度语音识别相结合,构成面向企业平台的新媒体稿件检索系统。相对于传统的通过文本这类单一格式进行查询的方式,本系统集成了百度语音识别的功能,可以对音视频格式的文件进行文字转化,从而进行查询。通过音视频文件信息的加入,使得查询准确度更高,查询资源变得多元化,丰富了系统检索功能。

周成瑜[9](2020)在《基于Web的开放域问答系统研究》文中进行了进一步梳理基于Web的开放域问答系统结合了搜索引擎和问答系统的优势,在移动互联网时代具有广泛的发展前景。开放域问答需要从大量网络文本中找出正确答案,任务较为复杂,目前尚不完善,其面临的主要挑战之一是人工标注大量文本代价高昂,通常只能利用远程监督的方式进行标注。而远程监督标注带来的噪声问题,已经严重限制系统的准确率提升。本文针对开放域问答系统的远程监督去噪问题,展开研究:当前存在的模型忽视了标签层面去噪的作用,针对该问题,本文提出了一种基于动态软标签的级联式开放域问答算法Cascade-Denoising。一方面,该模型基于深度学习技术,使用预训练语言模型进行编码,并结合排序算法对段落重新排序。另一方面,对重排序的高分段落,模型使用动态软标签技术在训练阶段不断更新远程监督标签权重,在标签层面达到去噪的目的。实验结果表明,模型比其它基准模型在中文和英文两个数据集上均取得了更好的准确率指标。进一步,为了减少级联式开放域问答系统的级联误差,本文探究了远程监督标签对迭代式系统的影响,并提出了 一种基于分层强化学习的迭代式开放域问答算法Iterative-Denoising。该模型首次将“包”的概念引入了开放域问答系统,基于分层强化学习的思路设计了一种多层次的奖励机制。实验结果表明该模型能够有效缓解远程监督带来的噪声问题,相较于基准模型,所提模型在多个数据集上的准确率均获得了提升。最后,本文设计开发了一套基于Web的级联式开放域问答系统。该系统包括数据构建模块、答案生成模块以及展示应用模块,能以对话框的形式回答用户问题。

张煜福[10](2020)在《基于Spark的查询日志用户行为系统的设计与实现》文中研究说明随着网络的快速普及,使用搜索引擎的用户规模正在逐渐增加,产生的日志信息呈现爆炸性的增长,海量搜索日志所带来的价值,引起了各个搜索类互联网企业的广泛关注。为了在未来的市场中占据主动,抓住数据所带来的财富,企业纷纷开始研究和分析用户的日志信息,从中发现用户的搜索意图和兴趣偏好,挖掘用户的行为特征,方便为用户提供精准和个性化的服务。然而,企业在处理海量用户日志信息的同时,面临着来自两个方面的挑战。一方面是随着对用户行为的深入分析,需要使用大量的数据挖掘算法,同时在对用户行为进行实时场景的分析上,需要具有计算速度快、低时延、高容错的要求。传统的单机操作远远不能满足海量数据处理的要求,在MapReduce集群上进行大量的迭代计算和结构化数据流的处理,会产生大量的时延,不能满足系统的要求。另一方面是海量搜索日志的存储问题,传统关系型数据库的可扩展能力有限,不能满足数据持续增长的存储需求。基于以上问题的分析与研究,在阅读了大量的相关文献资料之后,本文通过对用户的需求进行详细的分析后,设计一个基于Spark的查询日志用户行为系统,该系统主要划分为四个模块,分别是日志采集模块、日志存储模块、日志分析模块、日志可视化模块。日志采集模块主要是使用Flume分布式日志采集系统对各个服务器的查询日志进行采集。日志存储模块主要是把Flume采集的日志存储到HBase和Kafka中。其中最重要是日志分析模块,该模块主要分为实时统计分析、离线数据统计分析、离线数据挖掘分析。实时统计分析主要是使用Structured Streaming处理存储在Kafka集群中的日志信息,实现实时热门话题和话题总数的统计。离线数据统计分析主要是使用Spark SQL对数据仓库Hive的离线数据进行处理并把结果存储到MySQL数据库中。离线数据统计分析的内容主要包括用户关键词统计分析、用户查询日志指标分析、Rank排名与用点击次数统计分析、URL点击排行榜统计分析。离线数据挖掘分析主要是使用MLlib库中的朴素贝叶斯和K-Means算法,对用户的查询主题进行分类和聚类。日志可视化模块主要是使用ECharts图表和Spring Boot框架,把日志分析模块的结果进行可视化展示,方便业务人员能够清晰的掌握用户行为分析的结果。设计与实现用户行为分析系统,有利于更加高效的统计用户的行为信息和挖掘用户的行为意图,提高企业的市场竞争力。

二、大规模中文搜索引擎的架构和设计技术(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、大规模中文搜索引擎的架构和设计技术(论文提纲范文)

(1)基于微服务架构与知识图谱技术构建无人机知识库系统(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义与价值
    1.2 国内外研究现状
        1.2.1 专家系统及知识库研究现状
        1.2.2 知识图谱技术研究现状
        1.2.3 Web文本挖掘技术研究现状
        1.2.4 无人机技术发展及应用现状
    1.3 研究目标与研究内容
        1.3.1 研究目标
        1.3.2 研究内容
    1.4 论文研究技术路线
    1.5 论文组织结构安排
第二章 理论基础及关键技术
    2.1 相关理论基础
        2.2.1 知识库
        2.2.2 知识发现
        2.2.3 知识图谱
    2.2 知识获取技术
        2.2.1 数据获取技术
        2.2.2 数据去重技术
        2.2.3 数据提取技术
        2.2.4 数据存储技术
    2.3 知识抽取技术
        2.3.1 实体抽取技术
        2.3.2 关系抽取技术
        2.3.3 事件抽取技术
        2.3.4 实体链接与消岐
    2.4 知识表示技术
    2.5 自动文摘技术
        2.5.1 自动文摘生成原理
        2.5.2 TextRank算法
    2.6 本章小结
第三章 知识库系统的设计与构建
    3.1 系统非功能需求
    3.2 系统性能设计
        3.2.1 系统可靠性设计
        3.2.2 系统安全性设计
    3.3 系统架构设计
        3.3.1 整体架构设计
        3.3.2 技术架构设计
        3.3.3 分布式微服务架构
        3.3.4 Scrapy爬虫框架
        3.3.5 基于Swagger框架管理API
    3.4 技术路线与实施方案
        3.4.1 知识库的构建方式
        3.4.2 系统的技术路线
        3.4.3 系统的实施方案
        3.4.4 开发环境与开发语言
    3.5 本章小结
第四章 知识图谱的实现与应用
    4.1 知识获取
        4.1.1 定制化设置关键字
        4.1.2 定制化爬取专业网站
    4.2 数据提取
        4.2.1 半自动化提取数据
        4.2.2 自动文摘的提取
    4.3 知识抽取
        4.3.1 实体抽取(命名实体识别)
        4.3.2 实体关系抽取
        4.3.3 元事件抽取
        4.3.4 实体发现与链接
    4.4 知识表示
    4.5 文本数据可视化
        4.5.1 数据可视化
        4.5.2 关键字云图
    4.6 本章小结
第五章 系统的功能与实现
    5.1 系统整体功能结构
    5.2 系统前端功能实现
        5.2.1 查询信息模块
        5.2.2 台风实况模块
        5.2.3 数据可视化模块
        5.2.4 热门推送模块
        5.2.5 关键期刊模块
    5.3 系统后台功能实现
        5.3.1 用户管理模块
        5.3.2 菜单管理模块
        5.3.3 采集设置模块
        5.3.4 任务管理模块
        5.3.5 专家知识模块
        5.3.6 外部系统模块
        5.3.7 期刊大全模块
    5.4 本章小结
第六章 结论与展望
    6.1 总结
    6.2 创新点
    6.3 不足与展望
参考文献
致谢
在学期间主要研究成果
附录
    附录1 Swagger在微服务架构上的部署与集成
    附录2 Echarts组件实现折线图/柱状图形式的数据可视化
    附录3 BiLSTM+CRF模型构建过程
    附录4 利用TF-IDF进行实体链接关键代码

(2)语句意图匹配方法研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 课题的研究背景及意义
    1.2 语句意图匹配方法研究现状
        1.2.1 意图匹配数据集研究现状
        1.2.2 意图匹配算法研究现状
        1.2.3 词义学习方法研究现状
    1.3 论文的研究内容及创新点
        1.3.1 研究内容概述
        1.3.2 主要创新点
    1.4 论文的组织结构
第2章 基于无监督方法的问句意图匹配语料构建
    2.1 引言
    2.2 相关技术简介
        2.2.1 Word2Vec词向量
        2.2.2 GloVe词向量
    2.3 LCQMC意图语料构建
        2.3.1 意图数据收集
        2.3.2 基于无监督距离算法的句对过滤方法
        2.3.3 问句对人工标注
        2.3.4 语料构建代价
    2.4 评价与实验
        2.4.1 评价指标
        2.4.2 评价方法
        2.4.3 实验结果
    2.5 LCQMC语料质量分析
        2.5.1 基于关键词的数据构建方法分析
        2.5.2 语料中数据匹配类型统计
        2.5.3 语料中句对词汇重叠率
    2.6 本章小结
第3章 基于语句差异性特征的匹配方法
    3.1 引言
    3.2 相关技术简介
        3.2.1 循环神经网络语言模型
        3.2.2 预训练BERT语言模型
    3.3 语义差特征意图匹配模型
        3.3.1 语句中词汇差抽取
        3.3.2 基于LSTM编码的语句差异性特征表示
        3.3.3 基于BERT编码的语句差异性特征表示
        3.3.4 门控机制原理
    3.4 评价与实验
        3.4.1 数据集与评价指标
        3.4.2 实验对比方法
        3.4.3 实验设置
        3.4.4 实验结果
        3.4.5 样例分析
    3.5 基于语句差异性特征的模型分析
        3.5.1 语句差异性特征的时序信息分析
        3.5.2 词汇差与非重叠词汇差异对比
        3.5.3 门控机制可视化
        3.5.4 模型通用性实验
        3.5.5 重叠词汇有效性实验
        3.5.6 错误样例
    3.6 本章小结
第4章 面向意图匹配的词向量分解词义学习方法
    4.1 引言
    4.2 相关技术简介
        4.2.1 胶囊神经网络简介
        4.2.2 注意力机制简介
    4.3 基于胶囊网络的向量分解与词义学习
        4.3.1 基于胶囊网络的词向量分解
        4.3.2 词语上下文学习
        4.3.3 词义匹配训练
    4.4 评价与实验
        4.4.1 数据集与评价指标
        4.4.2 实验对比方法
        4.4.3 实验结果
    4.5 基于胶囊网络的词向量分解方法分析
        4.5.1 Caps Dec E2S模型消融实验
        4.5.2 上下文词义相似性可视化
        4.5.3 上下文注意力权重分析
        4.5.4 错误样例分析
    4.6 词义向量在意图匹配任务上的应用效果
        4.6.1 数据预处理
        4.6.2 实验方法改进
        4.6.3 实验结果
    4.7 本章小结
第5章 基于意图的领域内知识与文本匹配方法
    5.1 引言
    5.2 相关技术简介
        5.2.1 知识图谱简介
        5.2.2 LDA主题模型简介
    5.3 基于关系与主题胶囊网络的意图匹配方法
        5.3.1 基于意图关系与主题的胶囊网络结构
        5.3.2 意图关系相关性计算
        5.3.3 意图主题重要性计算
    5.4 评价与实验
        5.4.1 数据集与评价指标
        5.4.2 实验对比方法
        5.4.3 实验结果
    5.5 实验结果分析
        5.5.1 有效性测试
        5.5.2 RTCaps模型消融实验
        5.5.3 意图信息可视化
    5.6 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历

(3)面向博客的分布式垂直搜索引擎的设计与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外发展现状
    1.3 论文研究内容
    1.4 论文组织结构
第二章 搜索引擎相关技术研究
    2.1 搜索引擎架构
        2.1.1 搜索引擎工作原理
        2.1.2 Elasticsearch搜索引擎框架
        2.1.3 中文分词算法
        2.1.4 倒排索引
    2.2 网页去重算法研究
        2.2.1 布隆过滤器
        2.2.2 SimHash算法
    2.3 协同过滤推荐模型
        2.3.1 基于用户的协同过滤
        2.3.2 基于项目的协同过滤
    2.4 WORD2VEC模型
    2.5 本章小结
第三章 垂直搜索引擎方案设计
    3.1 搜索引擎总体方案设计
    3.2 基于BM25相关度的网页排序算法
        3.2.1 计算关键词与网页的相关度
        3.2.2 PageRank算法对网页链接权重重分配
        3.2.3 计算博客网页自身影响力调整网页排名
    3.3 基于改进的互信息和邻接墒的新词发现算法
        3.3.1 新词发现算法整体设计
        3.3.2 基于N-Gram模型对分词碎片拼接
        3.3.3 内部凝固度和邻接墒计算
    3.4 算法实验测试
        3.4.1 网页排序算法实验测试
        3.4.2 新词发现算法实验测试
    3.5 本章小结
第四章 垂直搜索引擎的设计与实现
    4.1 搜索引擎系统需求分析
        4.1.1 系统业务需求与设计目标分析
        4.1.2 系统功能性需求分析
        4.1.3 系统非功能性需求分析
    4.2 搜索引擎模块方案设计
    4.3 网络爬虫模块详细设计与实现
        4.3.1 网页爬虫模块总体设计
        4.3.2 网络爬虫模块具体实现
        4.3.3 改进的PageRank算法实现
    4.4 数据索引模块详细设计与实现
        4.4.1 新词发现算法实现
        4.4.2 中文分词
        4.4.3 索引构建
    4.5 用户检索模块详细设计与实现
        4.5.1 搜索结果排序
        4.5.2 搜索词提示
        4.5.3 网页个性化推荐
    4.6 本章小结
第五章 系统测试与性能分析
    5.1 系统测试环境
    5.2 系统功能测试
        5.2.1 爬虫模块测试
        5.2.2 索引模块测试
        5.2.3 搜索模块测试
    5.3 系统性能测试
    5.4 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 不足和展望
参考文献
致谢

(4)基于知识图谱的医疗问答系统(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 国内外研究现状
        1.2.1 知识图谱研究现状
        1.2.2 问答系统研究现状
    1.3 研究内容
    1.4 本论文的结构安排
第二章 相关技术与理论基础
    2.1 预训练语言模型
        2.1.1 注意力机制
        2.1.2 Transformer
    2.2 智能问答相关技术
    2.3 知识图谱
    2.4 本章小节
第三章 医疗问答系统需求分析与设计
    3.1 问答系统需求分析
        3.1.1 架构需求
        3.1.2 性能需求
        3.1.3 功能需求
    3.2 问答系统设计
        3.2.1 架构设计
        3.2.2 功能设计
        3.2.3 数据库设计
    3.3 本章小结
第四章 医疗知识图谱构建
    4.1 数据采集
    4.2 知识抽取
    4.3 知识融合
    4.4 知识存储
    4.5 本章小结
第五章 问答系统算法设计
    5.1 实体识别
        5.1.1 模型介绍
        5.1.2 实验设计
        5.1.3 实验结果及分析
    5.2 意图识别
        5.2.1 模型介绍
        5.2.2 实验设计
        5.2.3 实验结果及分析
    5.3 本章小节
第六章 问答系统实现与测试
    6.1 系统实现
        6.1.1 知识模块
        6.1.2 算法模块和数据模块
        6.1.3 问答模块和答案配置模块
        6.1.4 用户管理模块
        6.1.5 反馈管理模块
        6.1.6 屏蔽词管理模块
        6.1.7 日志管理模块
    6.2 系统测试
        6.2.1 功能测试
        6.2.2 性能测试
    6.3 本章小节
第七章 总结与展望
    7.1 总结
    7.2 未来展望
致谢
参考文献
攻读硕士学位期间取得的成果

(5)网络文件下载信息搜索及追踪系统(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 本文的研究工作概述
    1.3 搜索引擎相关技术的国内外研究历史与现状
    1.4 本文的主要贡献与技术特色
    1.5 本论文的结构安排
    1.6 本章小结
第二章 关键技术研究及相关技术介绍
    2.1 关键技术研究
    2.2 相关技术介绍
        2.2.1 Scrapy爬虫框架
        2.2.2 Redis数据库
        2.2.3 Solr全文检索引擎
        2.2.4 Bootstrap前端框架
    2.3 本章小结
第三章 ISTS-NDF系统需求分析与系统划分
    3.1 ISTS-NDF系统整体目标分析
    3.2 系统业务功能需求分析
        3.2.1 信息采集子系统需求分析
        3.2.2 文件追踪子系统需求分析
        3.2.3 服务与展示子系统需求分析
    3.3 分布式爬虫需求分析
    3.4 本章小结
第四章 ISTS-NDF系统详细设计
    4.1 系统架构分析
    4.2 信息采集子系统中的爬虫设计
        4.2.1 基于网页特征的目录树式网页遍历与网页解析
        4.2.2 基于布隆过滤器算法的网页去重与增量更新
        4.2.3 基于平均采样的爬虫代码匹配算法模块设计
        4.2.4 分布式爬虫设计
    4.3 系统其他业务功能设计
        4.3.1 信息采集子系统
        4.3.2 文件追踪子系统设计
        4.3.3 服务与展示子系统设计
    4.4 本章小结
第五章 ISTS-NDF系统功能实现
    5.1 系统技术架构
    5.2 信息采集子系统实现
        5.2.1 爬虫模块
        5.2.2 人机验证模块
        5.2.3 代码匹配算法模块
        5.2.4 分布式爬虫实现
    5.3 文件追踪子系统实现
    5.4 服务与展示子系统实现
    5.5 本章小结
第六章 系统测试
    6.1 系统单元模块测试
    6.2 系统集成功能测试
    6.3 系统性能测试
    6.4 本章小结
第七章 总结与展望
    7.1 论文工作总结
    7.2 问题与展望
致谢
参考文献

(6)基于知识图谱的档案智能语义检索关键技术研究与实现(论文提纲范文)

摘要
abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 全文检索研究现状
        1.2.2 档案检索研究现状
    1.3 研究内容
        1.3.1 档案数据的采集
        1.3.2 档案知识图谱的构建
        1.3.3 智能检索的构建
        1.3.4 主要特性
    1.4 论文组织结构
2 相关技术介绍
    2.1 循环神经网络
    2.2 长短期记忆网络
    2.3 条件随机场
    2.4 知识图谱技术
    2.5 本章小结
3 档案知识图谱
    3.1 档案知识本体建模
    3.2 档案知识抽取模型
    3.3 知识图谱存储与检索
    3.4 本章小结
4 基于个性化档案知识搜索引擎的搭建
    4.1 个性化语义检索模型
    4.2 用户偏好模型
        4.2.1 用户查询偏好特征采集
        4.2.2 用户查询偏好模型
    4.3 同义关系模型
    4.4 基于知识图谱的语义检索模型
        4.4.1 文本处理
        4.4.2 语义分析
    4.5 实验与分析
        4.5.1 实验数据
        4.5.2 实验结果分析
    4.6 本章小结
5 基于知识图谱的档案语义检索平台设计与实现
    5.1 平台系统需求分析
        5.1.1 功能需求
        5.1.2 性能需求
    5.2 系统设计方案
        5.2.1 系统整体设计方案
        5.2.2 前台检索设计方案
        5.2.3 后台管理设计方案
    5.3 系统关键功能设计与实现
        5.3.1 档案知识图谱的构建
        5.3.2 档案搜索引擎的搭建
        5.3.3 语音听写的设计与实现
        5.3.4 前端设计
    5.4 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
参考文献
附录 本人在攻读学位期间取得的学术成果
致谢

(7)基于医疗知识图谱的自动问答系统研究与实现(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状与进展
        1.2.1 国外研究现状与进展
        1.2.2 国内研究现状与进展
    1.3 本文研究目标与内容
    1.4 论文结构
2 系统相关技术概述
    2.1 问答系统概述
    2.2 知识图谱技术
        2.2.1 知识图谱技术的定义
        2.2.2 知识图谱技术的体系结构
    2.3 自然语言处理技术
        2.3.1 词语的向量化表示
        2.3.2 模糊匹配
        2.3.3 命名实体识别技术
        2.3.4 朴素贝叶斯分类器
    2.4 本章小结
3 医疗知识图谱的构建技术研究
    3.1 图谱框架与数据模式
        3.1.1 框架构建
        3.1.2 数据模式构建
    3.2 知识获取
        3.2.1 结构化数据
        3.2.2 半结构与非结构化数据
    3.3 信息抽取与知识融合
        3.3.1 信息抽取
        3.3.2 知识融合
    3.4 知识存储
        3.4.1 基于Neo4j的关系类知识存储
        3.4.2 基于Mongo DB的属性类知识存储
        3.4.3 知识扩充
    3.5 知识图谱展示
        3.5.1 查询语句构建
        3.5.2 图谱展示
    3.6 本章小结
4 基于医疗知识图谱的问答系统核心技术研究
    4.1 医疗问答系统的工作流程
        4.1.1 问题解析模块
        4.1.2 答案生成模块
    4.2 基于模板匹配的问题解析关键技术
        4.2.1 问题模型
        4.2.2 问题解析
    4.3 问题解析核心技术研究
        4.3.1 基于混合匹配的实体识别方法
        4.3.2 基于多分类模型的意图识别方法
    4.4 基于Cypher模板的答案构造生成
        4.4.1 属性查询类Cypher模板
        4.4.2 关系查询类Cypher模板
    4.5 实验评价与分析
        4.5.1 评价指标
        4.5.2 基于语义相似度的实体识别实验
        4.5.3 意图识别的多分类模型性能实验
    4.6 本章小结
5 医疗知识图谱问答系统的设计与实现
    5.1 需求分析
    5.2 系统设计
        5.2.1 系统架构
        5.2.2 功能模块设计
        5.2.3 数据库设计
    5.3 系统实现
        5.3.1 开发环境
        5.3.2 功能实现
    5.4 系统测试与分析
    5.5 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
致谢
攻读硕士学位期间的研究成果
参考文献

(8)基于Solr的新媒体稿件检索系统研究与设计(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 项目背景
    1.2 国内外研究现状
    1.3 研究内容
    1.4 本论文的组织结构
    1.5 本章总结
第二章 系统技术方案
    2.1 搜索引擎研究
        2.1.1 搜索引擎介绍
        2.1.2 搜索引擎原理
    2.2 企业搜索引擎方案选定
    2.3 Solr介绍
    2.4 Solr原理
        2.4.1 数据分类
        2.4.2 搜索分类
        2.4.3 索引原理
        2.4.4 索引实现步骤
        2.4.5 评分规则
    2.5 中文分词
        2.5.1 中文分词介绍
        2.5.2 分词算法
        2.5.3 技术难点
        2.5.4 分词应用
    2.6 本章总结
第三章 系统详细设计
    3.1 系统需求分析
        3.1.1 资源导入模块
        3.1.2 预处理模块
        3.1.3 Solr模块
        3.1.4 查询模块
    3.2 系统总体架构
        3.2.1 总体架构设计
        3.2.2 系统技术框架
    3.3 系统模块设计
        3.3.1 资源导入模块
        3.3.2 预处理模块
        3.3.3 Solr索引模块
        3.3.4 查询模块
    3.4 数据结构设计
        3.4.1 MySQL数据库设计
        3.4.2 Solr字段设计
    3.5 本章总结
第四章 系统实现方案
    4.1 系统整体架构实现
    4.2 软件技术方案
        4.2.1 数据库MySQL
        4.2.2 依赖管理Maven
        4.2.3 版本管理Git
        4.2.4 服务器Tomcat
    4.3 系统功能实现
        4.3.1 资源导入模块
        4.3.2 预处理模块
        4.3.3 Solr检索模块
        4.3.4 查询模块
    4.4 本章总结
第五章 系统测试
    5.1 系统部署方案
    5.2 系统测试方案
        5.2.1 单元测试
        5.2.2 功能测试
        5.2.3 性能测试
        5.2.4 安全性测试
    5.3 查询方案对比
    5.4 本章总结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢

(9)基于Web的开放域问答系统研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 主要研究内容
    1.4 论文结构安排
第二章 开放域问答研究综述
    2.1 开放域问答算法的分类
        2.1.1 级联式开放域问答
        2.1.2 迭代式开放域问答
    2.2 开放域问答中的关键技术
        2.2.1 预训练语言模型技术
        2.2.2 排序学习技术
        2.2.3 机器阅读理解技术
        2.2.4 深度强化学习技术
    2.3 本章小结
第三章 基于动态软标签的级联式开放域问答算法
    3.1 问题描述
    3.2 算法基本思想
    3.3 级联式去噪开放域问答算法设计
        3.3.1 重排序去噪方法
        3.3.2 预热去噪方法
        3.3.3 动态软标签去噪方法
    3.4 实验及结果分析
        3.4.1 数据集及评估指标
        3.4.2 基准模型
        3.4.3 超参数设置
        3.4.4 量化结果与分析
    3.5 本章小结
第四章 基于强化学习的迭代式开放域问答算法
    4.1 问题描述
    4.2 算法基本思想
    4.3 迭代式去噪开放域问答算法设计
        4.3.1 分布式表示预训练
        4.3.2 包的构造方法
        4.3.3 包选择器
        4.3.4 阅读理解模型
        4.3.5 问题表示更新网络
        4.3.6 整体算法流程
    4.4 实验及结果分析
        4.4.1 数据集及评估指标
        4.4.2 基准模型
        4.4.3 超参数设置
        4.4.4 量化结果与分析
    4.5 本章小结
第五章 基于Web的开放域问答系统设计与实现
    5.1 系统架构设计
    5.2 系统开发环境
    5.3 数据构建模块
        5.3.1 离线数据构建
        5.3.2 在线数据构建
    5.4 答案生成模块
        5.4.1 离线模型训练
        5.4.2 在线模型评估
    5.5 展示应用模块
    5.6 开放域问答页面展示
    5.7 本章小结
第六章 总结与展望
    6.1 论文总结
    6.2 未来展望
参考文献
致谢
攻读学位期间取得的研究成果

(10)基于Spark的查询日志用户行为系统的设计与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 国内外研究现状
    1.4 研究内容
    1.5 论文组织结构
第二章 相关技术介绍
    2.1 Hadoop技术
        2.1.1 HDFS分布式文件系统
        2.1.2 MapReduce分布式计算框架
        2.1.3 YARN资源管理器
    2.2 HBase技术
    2.3 Hive技术
    2.4 Spark技术
        2.4.1 Spark简介
        2.4.2 Spark运行模式
        2.4.3 Spark运行架构
    2.5 Java Web技术
        2.5.1 Sprint Boot
        2.5.2 ECharts
    2.6 数据挖掘相关技术
        2.6.1 TF-IDF向量空间模型
        2.6.2 朴素贝叶斯算法
        2.6.3 K-Means算法
    2.7 本章小结
第三章 系统的需求分析与总体设计
    3.1 系统需求分析
        3.1.1 系统需求分析概述
        3.1.2 系统业务需求分析
        3.1.3 系统功能需求分析
        3.1.4 系统非功能需求分析
    3.2 系统总体设计
        3.2.1 系统功能模块设计
        3.2.2 基础数据表设计
        3.2.3 系统整体架构设计
    3.3 本章小结
第四章 系统的具体实现
    4.1 数据来源
    4.2 日志采集具体实现
    4.3 日志存储具体实现
    4.4 日志分析具体实现
        4.4.1 实时统计分析具体实现
        4.4.2 离线统计分析具体实现
        4.4.3 离线数据挖掘具体实现
    4.5 日志可视化具体实现
    4.6 本章小结
第五章 用户行为分析系统结果分析
    5.1 环境平台的部署
        5.1.1 系统软硬件配置
        5.1.2 Hadoop高可用集群搭建
        5.1.3 HBase高可用集群搭建
        5.1.4 Spark高可用集群搭建
    5.2 结果分析
        5.2.1 实时统计分析
        5.2.2 用户查询日志指标分析
        5.2.3 用户关键字统计分析
        5.2.4 Rank排名与用户点击次数分析
        5.2.5 URL点击排行榜分析
        5.2.6 用户查询主题分类分析
        5.2.7 用户查询主题聚类分析
    5.3 本章小结
第六章 总结与展望
参考文献
致谢

四、大规模中文搜索引擎的架构和设计技术(论文参考文献)

  • [1]基于微服务架构与知识图谱技术构建无人机知识库系统[D]. 陈秋瑾. 厦门理工学院, 2021(08)
  • [2]语句意图匹配方法研究[D]. 刘欣. 哈尔滨工业大学, 2021(02)
  • [3]面向博客的分布式垂直搜索引擎的设计与实现[D]. 林茹. 北京邮电大学, 2021(01)
  • [4]基于知识图谱的医疗问答系统[D]. 刘源. 电子科技大学, 2021(01)
  • [5]网络文件下载信息搜索及追踪系统[D]. 张擎天. 电子科技大学, 2021(01)
  • [6]基于知识图谱的档案智能语义检索关键技术研究与实现[D]. 叶蕾. 武汉纺织大学, 2021(08)
  • [7]基于医疗知识图谱的自动问答系统研究与实现[D]. 李旨赟. 兰州交通大学, 2020(02)
  • [8]基于Solr的新媒体稿件检索系统研究与设计[D]. 胡晓峰. 北京邮电大学, 2020(05)
  • [9]基于Web的开放域问答系统研究[D]. 周成瑜. 北京邮电大学, 2020(04)
  • [10]基于Spark的查询日志用户行为系统的设计与实现[D]. 张煜福. 曲阜师范大学, 2020(01)

标签:;  ;  ;  ;  ;  

大型中文搜索引擎的架构与设计技术
下载Doc文档

猜你喜欢