一、WebLight——一个集文档管理的综合搜索引擎(论文文献综述)
朱颖[1](2020)在《基于容器技术的实训平台的设计与实现》文中研究说明随着科技的飞速发展,大数据与人工智能技术已经成为新一轮产业变革的核心力量。而推动大数据和人工智能的发展需要依靠人才的支撑,人才的质量和数量决定着大数据和人工智能发展的水平和潜力。星环公司依托自身技术,结合多行业落地案例,推出了一系列的大数据和人工智能相关课程,积极开展相应技术培训。为满足培训需求,公司开发了一款集大数据与人工智能技术理论学习与项目实战于一体的实训平台――星环大学(Transwarp University,以下简称TU)。TU为管理员提供了用户管理、课程管理等功能,方便管理员对平台中的所有资源进行集中统一管理,降低管理成本。同时为教师提供教学任务管理和教学资源管理功能,满足教师管理课件、组织课程练习与课程考试、批改试题、统计课程反馈的需求,大幅减轻老师的工作负担,使老师将宝贵的精力投入教学资源的优化之中。TU还为学生提供学习任务管理、课程学习和实验功能。在实验课程中,TU为用户提供了一个接入星环大数据平台TDH和人工智能平台Sophon的实验容器。在容器提供的实验环境中,结合相应的实验手册,学生不仅可以了解星环大数据和人工智能技术体系,还能通过实际操作学习TDH与Sophon平台组件的使用和面向真实行业场景的大数据与人工智能落地案例。TU主要包括课程模块、教学模块、教学管理模块、资源管理模块、用户模块以及日志模块六个功能模块。TU使用当前主流技术开发:前端实现基于Angular框架;后端采用Spring Boot框架搭建;使用Spring Security框架保障系统安全;采用Spring Data JPA作为数据持久层框架操作My SQL和Redis数据库。系统特色功能实验容器的实现由Docker提供技术支持,通过VNC技术实时处理实验环境中的桌面图像数据,再由no VNC作为VNC客户端以网页的形式向用户提供一个可以在浏览器中直接操作的实验环境。其技术难点实验容器的管理由Kubernetes技术提供支持。本文阐述了TU的设计与实现,给出了需求分析、系统整体设计和模块详细设计,并对重要功能的实现进行了详细说明。自上线以来,TU运行状态良好,满足了星环公司内部以及合作伙伴的培训需求。
王倩[2](2020)在《基于大数据的政府公共舆论信息平台存储与处理技术研究》文中研究指明随着我国各方面的飞速发展,经济实力和在世界上的地位显着提升,目前已经是世界第二大经济;因此,我国的公民无论是在国内还是在国际上,都有了话语权,这就使得人们在评判议论事情时,通常会按照自己的主观意见去考虑,自由发表观点看法,有时并不能真实的客观的去反映事实,人云亦云,从而造成错误舆论。本文根据上述情况,针对丰镇市舆情信息监测不精确耗时长的问题,基于大数据方面的对政府信息处理的建议,进行了有关系统在需求方面的相关研究,并对相关的系统功能的实验设计都进行了研究。以大数据储存作为研究的原则,丰镇市政府公共舆论信息平台将舆论信息分为四个阶段,即为设定、采集、分析和服务四个阶段。根据丰镇市的民族特色,主要抓取当前包含了蒙古族、汉族冲突等主题的内容,设置网页爬虫的基本类型后,爬虫系统就可以进行网页信息抓取工作了,抓取有效的主题用户评论信息,上传到服务器中进行剖析,判断用户评论是否为负面评论。索引服务器主要方便用户对舆论进行查询工作,WEB服务器主要作用就是对网页的交互信息进行管理。在网络上是根据网络留言的实际情况,判断用户留言是否针对某件事进行负面评论的情况,在这之前,设定一个阈值,一旦超过阈值,系统可以自动报警,提醒工作人员该评论信息内容异常。根据舆论信息评论的不同,可以将报警等级设定为三个级别,如用黑色、红色、黄色表示等等。解决了政府在进行信息收集时的收集不准确问题,并基于数据挖掘工具WEKA的基础上,对重要的舆论信息进行清洗和编排,实现当地网信办对公共舆论信息的充分监控,在最短时间内做到平台对网络舆论中敏感信息的提取,通过对关键词的提取,对互联网舆情事件进行分类,分为特大互联网舆情事件、重大互联网舆情事件、较大互联网舆情事件、一般互联网舆情事件;可使网信办根据舆情等级类别及时精确地对舆论进行引导及预警,满足网信办及丰镇市政府在大数据环境下对公共舆论的实际管理需要。
应志为[3](2019)在《基于数字信号处理理论的信息检索模型研究》文中研究指明伴随着大数据时代到来,各行各业的信息检索系统用户为从海量信息中精准高效获取所需信息,对信息检索模型的查准率提出了较高要求。在信息检索领域发展的数十年中,国内外相关研究主要针对诸如概率模型、统计语言模型以及向量空间模型等主流检索模型进行实现与优化,而很少有研究涉及其它类型的检索模型及相应的模型构架。通过参阅文献发现,近些年被提出的主流检索模型检索准确率提升幅度较小,其发展陷入瓶颈,而领域内对新类型模型或架构架产生的需求十分迫切。近些年来,一些新兴检索模型与相应构架的提出在领域内引起较多关注。其中特别需要关注的是基于数字信号处理(Digital Signal Processing:DSP)理论的信息检索模型,该类模型较为新颖地引入了数字信号处理领域的相关理论与概念进行检索模型构建。依据现阶段相关研究结果,该类模型在诸多方面存在一定缺陷,具备较大的效果提升空间。本文所提出的检索模型与构架同样基于数字信号处理理论与概念,对当前基于DSP理论的模型与构架进行了多方面优化,其主要创新点为:(1)本文从新的角度提出了一种基于DSP理论的信息检索模型构架DSPF(Digital Signal Processing based Framework)。在以往的同类模型构架中,文档被表示为一个滤波器组,采用频域表示;同时,查询词项被表示为信号,却被采用时域表示,因此为保证滤波计算过程中二者形式的统一,模型必须对信号进行时/频域转换,从而导致实现过程繁琐。此外,以往的模型构架仅将查询词项表示为单一一种信号,且没有为其设置可供人工调节的超参数,使模型效果不够理想。本研究所提出的DSPF模型构架则将查询词项表示为频谱(信号的频域表示),该表示方式可省去以往同类型构架中对于信号的时频域转化过程。此外,为了进一步提高查准率,DSPF构架将每个查询词项表示为以七种不同核函数(Gaussian,Triangle,Circle,Cosine,Quartic,Epanechnikov,Triweight)图形为包络的频谱。此外,DSPF模型构架为每种频谱表示均设置了超参数,通过同步调节频谱宽度以及滤波器宽度获得较高的查准率。(2)将概率模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-BM25,并将该模型与7种核函数逐一结合。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-BM25在与各个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP(平均正确率均值)为依据时,DPSF-BM25在与Gaussian与Cosine核函数结合时效果最佳,在所有数据集上其查准率均高于经典概率模型BM25,BM25+以及当前效果最佳的基于DSP理论的检索模型LSPR-BM25。(3)将统计语言模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-DLM,并将该模型与7种核函数逐一结合。这也是首次将统计语言模型的词项权重计算方式引入基于DSP理论的模型构架。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-DLM在与7个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP为依据时,DPSF-DLM在与Gaussian与Cosine核函数结合时效果最佳,在大多数数据集上其查准率均高于经典统计语言模型DLM。(4)将向量空间模型的词项权重计算方式进行改进,并引入DSPF模型构架,提出模型DSPF-MATF,并将该模型与7种核函数逐一结合。为检验模型有效性,本实验依据以MAP(平均正确率均值)为主要参考的多个查准率评价指标,对DPSF-MATF在与各个核函数进行结合时的检索效果在五个新闻标准数据集与两个网络爬取文本数据集上进行检验。结果显示,以MAP(平均正确率均值)为依据时,DPSF-MATF在与各个核函数结合时效果无明显差异,几乎在所有数据集上,其查准率均高于BM25,DLM,LSPR-BM25,经典向量空间模型MATF以及本研究所提出的DSPF-BM25与DSPF-DLM。(5)初步实现了一个基于DSPF构架的医学文献检索系统。它可以根据医务人员提交的查询,较为准确地搜寻到诸如诊断、治疗与护理等方面的文献资料。为医务人员在为患者提供医疗服务的各个环节提供参考方案。
潘敏[4](2019)在《基于潜在语义关系的伪相关反馈查询扩展技术研究》文中进行了进一步梳理伪相关反馈与查询扩展作为信息检索领域的关键技术,能极大地提高信息检索系统的性能,一直以来深受国内外信息检索领域学者的重视。在伪相关反馈的过程中,对原始查询进行扩展是非常重要的一个环节。在选取扩展词项的时候,传统的伪相关反馈方法大都聚焦于评估候选扩展词项在伪相关文档中的词频重要性和显着性,往往会遗漏候选扩展词项与查询词项之间潜在语义关系。本文结合经典的伪相关反馈查询扩展方法,围绕候选扩展词项的语义捕获与表示,提出了若干个具有不同语义特征的伪相关反馈查询扩展方法。实验结果表明这些方法能够优化扩展词项的质量,提高信息检索的效果。主要的研究工作和创新点包含以下几个方面:(1)本文提出了一种基于词项超空间语义的伪相关反馈模型HRoc。该模型采用一种改进的超空间模拟语言算法度量查询词项与候选扩展词项之间的潜在语义关系,并在传统的Rocchio模型中融入这一语义关系完成查询扩展。在此基础上,本文为HRoc模型设计了三种不同的归一化策略。这些策略可以用来协调由不同特征生成的候选扩展词项的权重。最后,本文还引入了一个自适应函数来代替HRoc模型中的参数D,它可以根据文档长度自动选择窗口大小。在PMC2016数据集上的实验结果表明,本文所提出HRoc模型在各项评价指标上优于其他所对比的模型,能有效地提高信息检索的精度和查全率,得到比其他模型更精确的结果。同时,引入了自适应参数后的HRoc模型,在达到同等性能的情况下使用了更少的超参数,提高了模型的运行效率和适用性,有助于用户更高效地检索文档。(2)伪相关反馈是一种有效并被广泛采用的查询扩展技术,它假定初始检索结果集中排名最高的一部分文档是相关的,然后从这些文档中提取扩展词项。在选择扩展词项时,大多数传统模型都没有同时考虑词项的词频显着性以及候选词项与查询词项之间的共现关系。然而,直观地看,与查询词项同时出现并且频率较高的词项更有可能与查询主题相关。本文提出了一种基于核函数词项共现语义的伪相关反馈方法。该方法使用了高斯核函数来模拟基于邻近位置的查询词与候选扩展词之间的潜在语义关系,并将这一语义关系以及词频显着性特征同时引入到传统的Rocchio模型和RM3模型中分别完成查询词项扩展,由此提出了 KRoc模型和KRM3模型。在9个TREC数据集上的实验结果显示,本文所提出的基于核函数词项共现语义的伪相关反馈方法在MAP和P@10两个指标方面明显优于其他重要的模型,验证了本文所提出的方法能有效地缓解查询主题漂移的现象,提高最终伪相关反馈的检索效果。(3)本文提出了基于深度学习技术的伪相关反馈模型。在实际查询中,句子携带了其组成词项的额外的语义信息。忽略查询句子语义信息的检索模型往往难以准确地判别查询主题中多义词项的正确含义,从而曲解用户的真实意图,导致检索效果较差。为了正确地识别用户的真实查询意图,改善信息检索系统的语义理解能力,本文对基于深度学习技术的句子语义相似度计算进行了深入研究,将词项所在句子和查询词项所在句子之间的语义相似度信息作为扩展词项的句子语义权重,并将该权重引入经典的Rocchio模型中,提出基于BERT模型句子潜在语义的伪相关反馈模型BRoc。在标准TREC数据集上的实验结果表明,本文所提出的方法能有效提取查询主题和文档中的句子语义特征,并且对词的多义性也有较好的区分能力,可以改善传统伪相关反馈模型的性能。
杜春凤[5](2018)在《社会化搜索平台用户持续使用意愿的影响因素研究 ——以微信搜索为例》文中研究表明信息技术的迅猛发展催生了很多新兴的网络平台,如社会化媒体、在线问答社区、社会化标注系统等。互联网的应用模式已逐渐从传统的“人-机”交互模式转变为“人-人”交互模式。同时,随着社交网络等的日趋繁盛,用户对互联网的参与度和贡献度都在显着提高,对信息的需求也越来越多元化。在这种背景下,用户搜索信息的方式逐渐由传统搜索引擎搜索转为社会化搜索。作为一种新型的信息搜索方式,社会化搜索变得越来越普遍和流行。从产业界来说,Facebook、知乎、微博、微信都都在不断优化其搜索功能和服务;从学术界来说,越来越多的研究者投入社会化搜索的研究中去。在这种形势下,对社会化搜索平台用户持续使用意愿的影响因素研究不仅能够帮助社会化搜索平台更好的了解用户,从而促进其长远发展,还能够丰富社会化搜索用户持续使用意愿的研究。本研究通过对国内外相关文献的梳理,基于SOR模型框架,结合ECM-ISC模型、UTAUT模型、信息系统成功模型,并引入新的变量觉知性,构建了社会化搜索平台用户持续使用意愿的影响因素模型。在此基础上,本研究以微信搜索为例,对221位有过微信搜索经验的用户进行了问卷调查,并利用收集到的数据对理论模型中的假设进行了验证。最终获得的主要结论为:(1)社会化搜索平台用户的感知有用性正向影响其持续使用意愿;(2)社会化搜索平台用户的满意度正向影响其持续使用意愿;(3)社会化搜索平台用户的觉知性正向影响其持续使用意愿;(4)社会影响正向影响社会化搜索平台用户的持续使用意愿。最后,本文对于数据分析的结果给予了相关解释,然后在分析社会化搜索平台发展现状的基础上,从四个方面对社会化搜索平台的提供商提出了参考和建议,分别是:(1)丰富信息内容,提高信息质量;(2)优化用户体验,构建优质平台;(3)增强社交功能,抓住移动机遇。本研究的主要贡献有:(1)本研究结合已有理论,从微信搜索这一角度切入,探索用户持续使用意愿的影响因素,填补了微信搜索研究的空白。(2)本研究将觉知性引入用户持续使用意愿的研究中,而目前国内信息系统领域鲜有涉及觉知性这一概念。
邓忠[6](2017)在《基于NoSql的教育资源云平台的设计与实现》文中研究说明随着世界各国教育信息化建设的不断加深,教育相关资源的数据量也呈现着指数级的增长速度。这些资源教育不仅种类繁杂,而且还存在教育性强但与教育教学过程脱离,同时分布无序和零散等特点。针对教育资源管理过程中存在的这些问题,本文提出了基于NoSQL的教育资源云平台的设计与实现方案。解决海量资源存储的问题,本文提出了基于NoSQL非关系数据库的教育资源存储和管理方案,并在为了提高存储空间的使用效率的问题上设计了一种文档级的资源去重算法。接着定义了一套具备多版本教学大纲管理能力的教育知识树和用户标签库的构建和维护规则,并通过教育知识树和用户标签对教育资源的标注,有效解决教育资源与教学过程相关程度低,以及资源语义含义较弱的问题。本文提出的教育资源存储和管理方案同时也为资源的高效共享和检索带来了更好的解决途径。针对资源的共享问题,除了上述教育知识树能实现平台公共资源的共享外,本文还设计了基于用户和圈子的资源共享机制,能实现资源在用户间,以及跨组织的高效共享。针对资源的检索问题,本文则设计了一种资源的综合检索体系。除了包括关键字检索,资源分类检索这种简单的检索方式外,还包括基于开源框架Lucene实现的资源全文索引。最后一种检索方式则是基于对资源标注的关联检索,其基础是教育知识树或用户标签与教育资源的关联关系。使用这种方式检索时,用户可以直观的了解资源与教学过程的关系,也可以根据用户标签的关联推知资源所包含的语义。以上四种检索方法提供了不同角度的资源检索途径,通过对这几种检索方式的综合运用,能快速、准确的帮助用户定位资源。资源的存储和管理方案必然会带来教育资源平台高并发访问方面的问题和服务高可用的要求,为此,本文设计教育资源云平台的高可用架构,包括教育资源平台高可用服务方案,基于NoSQL的教育资源高可用存储架构和基于MySQL的高可用集群三部分。
姜琨[7](2015)在《搜索引擎中的索引压缩和查询问题研究》文中研究说明随着互联网技术的飞速发展和互联网应用的不断普及,互联网资源成为当前规模最大、内容最丰富、使用最广泛的信息来源。为了有效地从这些海量数据中检索到需要的信息,搜索引擎已经成为向用户提供快速资源定位的最好技术手段。然而,不断增长的网页规模和查询请求使得搜索引擎面临着巨大的性能挑战。面对海量的网页数据和巨大的查询需求,如何高效地处理查询请求成为搜索引擎领域中最重要的研究问题之一。在查询性能上的任何提升都可以显着地降低系统硬件资源的投入并提升用户的查询体验,从而为搜索引擎的良好运行提供坚实的基础。因此,本文主要研究提高搜索引擎效率的方法,并重点从倒排索引压缩和查询两方面技术结合的角度出发来解决制约搜索引擎系统性能的问题。本文的主要研究成果如下:(1)为了提升搜索引擎系统索引数据的压缩性能,本文研究了典型的Simple9索引压缩算法。针对Simple9压缩算法中存在的填充模式间可压缩整数个数的稀疏问题,本文提出了密集填充技术(Dense Padding)来使一个32位机器字能够压缩更多的整数,从而提升Simple9索引压缩算法的压缩率。当某一填充模式中异常值的相对位置大于下一个填充模式的可压缩整数个数时,我们通过在被压缩整数序列末尾插入整数0来构造满足本填充模式的可压缩整数序列。在解压过程中,我们设计巧妙的算法来去除额外的整数0。此外,针对Simple9中可压缩数字序列个数较少的导致的位操作过多问题,本文提出了分组Simple9压缩技术(GroupSimple9)来降低压缩和解压缩过程中的数据读取、分支判断、移位和查找映射表等位操作,从而提升Simple9压缩算法的压缩和解压速度。实验结果表明,本文提出的分组Simple9和密集Simple9(DenseSimple9)压缩算法能够在压缩率、压缩和解压三方面上均有明显的性能提升。(2)为了提升搜索引擎系统索引数据的查询性能,本文研究了当前流行的MaxScore动态剪枝算法。由于当前MaxScore查询算法是在必要表(Essential Lists)中进行选择候选文档,非必要表(Non-essential Lists)的倒排项仅进行分数贡献累加。MaxScore查询算法对必要表的访问是顺序进行的,而仅仅对非必要表采用随机访问,这种情况下MaxScore查询算法存在着严重的候选文档失效问题。针对这一问题,本文首先实现了一种多层自索引结构(Hierarchical Self-index)来支持倒排链表的随机访问,然后提出对候选文档最大可能分数进行双向检查,实现了必要表的快速跳跃访问(Essential Lists Skipping,ELS)。这样实现必要表中候选文档的预先检测和随机访问,使得候选文档的打分失效问题能够尽早被发现,避免在将要失效的候选文档上的一些无用的操作。实验结果表明,本文提出的ELS-MaxScore查询算法能够大大提升top-k查询性能,尤其在查询长度小于4时能达到MaxScore近2倍的性能。(3)通过之前的分析可以发现提升搜索引擎查询性能的一个方法是,候选文档的选择应该主要集中在重要度较高的词项对应的倒排链表中。在分析WAND查询算法问题和研究激进式MaxScore(Aggressive MaxScore)优势的基础上,为了更好的利用词项重要度这一重要特性,本文提出了最大重要度优先(Largest Score First,LSF)查询算法。LSF查询算法使得具有较高重要度的查询词项所指向的倒排链表能够优先得到处理。分析表明,LSF查询算法能够解决当前(Document At A Time,DAAT)和(Term At A Time,TAAT)两种穷尽遍历算法中存在的候选文档随机选择和内存消耗问题。为了进一步支持高效的动态剪枝算法,本文利用LSF查询的对于词项重要度考虑的优势,提出了两种精确的动态剪枝算法:基于LSF的去除查询词项技术(Term Omitting,LSFTO)和基于LSF的文档部分打分技术(Partial Scoring,LSFPS)。基于TREC GOV2上的实验结果表明,本文提出的两种基于LSF索引遍历的动态剪枝算法能够达到比基于DAAT索引遍历的WAND和MaxScore两种动态剪枝算法更好的查询性能。
林盛[8](2015)在《时间感知的Web搜索研究》文中指出随着互联网和信息技术的飞速发展,Web信息呈现出爆炸式增长的趋势。海量的Web信息使得人们快速查找到真正需要的信息变得十分困难,因而也带动了搜索引擎技术的快速发展。搜索引擎通过爬虫在互联网中搜集大量的网页,然后运用一定的方法对网页处理后进行索引和存储,并通过有效的排序算法返回与用户查询相关的结果。目前,搜索引擎已经成为人们获取Web信息的重要工具,优化搜索引擎的性能也成为目前Web领域的一个热点问题。现有搜索引擎的一个主要问题是对于Web网页的时间信息缺乏有效的处理技术。时间信息和我们的日常生活息息相关。在日常的Web搜索行为中,人们也常常将时间信息作为查询词提交给搜索引擎进行查询。已有研究表明,在用户提交的查询中,有约1.5%的查询包含了显式的时间约束,有约7%的查询包含了隐式的时间约束。另外,在本文的实验中我们发现,平均每个新闻网页都包含了5个左右的时间表达式。这些都说明了时间信息对于网页以及用户查询的重要性。而现在的搜索引擎对查询中的时间关键词仅仅作为普通文本关键词来处理,在索引、排序等过程中也只考虑了网页的发布时间,缺乏对网页内容时间和查询中的时间信息的抽取和分析,因此不能很好地理解用户的查询意图,也不能将时间信息有效地结合到查询结果的排序算法中,最终导致搜索引擎在回答时间相关类用户查询时难以获得好的查询效果。基于以上背景,本文针对现有搜索引擎缺乏有效的时间感知搜索能力的现状,研究了时间感知搜索中的若干关键问题,提出了一系列的解决方法。论文首先阐述了时间感知搜索的研究背景和意义,分析了时间感知搜索研究中存在的问题和挑战,在此基础上围绕网页时间抽取、时间感知的网页排序、查询时间扩展、时间感知搜索原型系统等问题开展了深入研究。总体而言,本文的主要工作和贡献可归纳为以下几个方面:(1)针对现有的研究很少区分网页中的时间表达式和网页内容的相关程度的问题,提出了一种基于网页时间表达式出现次数和时间表达式之间的包含关系的网页首要时间抽取算法。该算法不是仅考虑网页时间表达式出现的次数,而且还考虑了时间的内在含义,更加适合于我们对于文本理解,同时网页显式时间和隐式时间具有不同的抽取精度的问题也被考虑在内,算法得到了较高的准确率。(2)针对现有的时间感知排序算法对网页内容时间以及网页和时间表达式相关程度考虑不足的问题,本文提出了一个基于网页首要时间的时间感知排序算法。该算法充分考虑网页中出现的内容时间,同时对网页中出现的每一个时间表达式都定义了和网页内容的相关性权重,另外,该算法也考虑了显式时间和隐式时间的抽取精度的问题,相对于其它对比算法,本文提出的方法具有更好的性能。(3)针对用户在提出查询时不知道确切的时间约束的问题,本文提出了一个基于权重矩阵的查询时间扩展算法。该算法通过对网页的内容进行分析,考虑网页内容中时间表达式和文本关键词的共现关系,得到两者的相关程度,在用户提出相应的查询关键字的时候返回根据相关度排序的时间词候选列表。该方法通过网页的内容进行分析,只要网页录入了搜索引擎的索引库,就能及时的对扩展时间词进行更新,具有很强的及时性,这种方法得到的候选时间词具有很高的准确率。(4)针对现有的时间感知排序算法没有统一的平台的问题,本文实现了一个时间感知搜索的TASE原型系统(Time-Aware Search Engine)。该系统定义了网页时间的表示模型,该模型能够很好的满足多种时间感知的排序算法,并且通过时间相似性和文本相似性线性加权的形式得到最终的相关度,只需要实现一个时间感知排序的时间相似性计算方法就能够扩展到该原型系统中,具有很强的可扩展性。本文实现的原型系统实现了多种的时间感知排序算法,并且使用AJAX等前端技术,可以给用户提供一个很好的使用体验。本文的研究较好地解决了时间感知的搜索引擎中的核心问题。论文提出了网页首要时间及抽取算法、时间感知排序算法、查询时间词扩展算法等一系列新的设计,并建立了一个原型系统进行了系统的实验,验证了所提算法在实际数据集上的有效性,从而有效地改善了搜索引擎对于时间感知用户查询的搜索效果,并可以为下一代搜索引擎和时间相关的Web应用的进一步发展提供新的参考。
朱宇[9](2015)在《区域数字图书馆云服务平台的构建与实践》文中研究表明当前,数字图书馆已经步入了较为成熟的发展阶段,形成了基于理论研究与具体实践的完整体系。随着信息技术、网络技术、通讯技术的快速发展,数字图书馆服务平台处在不断变革之中。值得关注的是,云计算的出现给图书馆的发展带来了机遇与挑战,基于云计算的数字图书馆建设也逐渐进入公众视野,相应的理论研究逐渐成型,而实践目前尚未形成规模化、体系化,但局部的实践已经取得了一定的成效。作为数字图书馆的子工程,区域数字图书馆在保存区域特色资源、提供信息服务、开展社会教育等方面都取得了长足的进步。因此,借鉴云计算技术实现区域化特色、优先解决重点问题、逐步建设、逐步实施的下一代数字图书馆云服务平台将是未来图书馆的重点建设任务。国外图书馆界自2011年开始,已经涌现出众多融合多种服务模块的下一代图书馆服务平台,包括SirsiDynix公司的BlueCloud Suite,Innovative公司的Sierra,Exlibrs公司的Alma,Serielsolutions公司的Intota等等,并得到图书馆界的广泛认可,全球已有超过1000家图书馆升级使用到下一代图书馆服务。目前国内还没有厂商推出下一代服务平台,因此,笔者认为有必要在学习国外下一代服务系统先进架构的基础上,研究开发出一个国内领先的、以读者为中心的、强调用户体验的、涵盖资源整合发现、大数据中心、学科服务、读者服务、ERM电子资源协调采购、数字资产管理、教学服务、门户服务的一体化综合性服务平台。本文首先从国内外理论研究现状入手,通过文献调研发现国内外研究的差异与侧重点,发现目前国内研究的不足;其次在理论研究的基础上对区域数字图书馆和云计算等相关概念进行了较为详细的阐述;然后,在分析数字图书馆云服务平台构成要素的基础上,构建了基于云计算的区域数字图书馆服务模型架构,包括资源服务云平台、学科服务云平台、管理服务云平台、数据中心以及移动门户五个模块。同时以江苏省高校图书馆为例,对模型的各个模块进行了较为细致的实践描绘;最后,在案例实践的基础上,分析并总结了整体情况并对未来研究作出展望。基于上述研究,笔者在研究展望中提出可以作为未来进一步研究的三个方向:一是云环境下数字图书馆的知识管理问题。如何将构建的“资源共享云”让用户可以在任何时间、任何地点获得知识产品的一站式服务,同时要实现数字资源长期保存和异地备份,是值得进一步探索的。二是云环境下数字图书馆的数据安全问题。云计算的协同开放性使其在数据安全保障方面存在不小的问题。因此,在数字图书馆云服务平台的构建过程中如何做好数据隐私保护与隔离将是未来研究与实践的一个重要内容。三是云环境下数字图书馆的版权保护。版权问题包括非法用户或者黑客侵权、云服务商侵权、云服务商衍生产品的版权归属等问题,也将是未来数字图书馆云服务平台构建者们必须面对并解决的问题。
万轶[10](2015)在《基于Hadoop的搜索引擎关键技术研究》文中提出随着社会信息化程度不断提高,各行各业与网络的联系越来越紧密,由此而产生的网络信息每天都以指数级增长。在海量的网络信息资源中,通用搜索引擎的检索结果出现杂、乱、多的现象,快速并且精确地找到用户所需的信息因此变得日益困难。通用搜索引擎对搜索数据的排序展示都受到商业影响同时也有搜索结果网页数据量大,无法体现关键字专业性的缺陷。由此针对特定行业特定需求的垂直搜索引擎应运而生,但大多数中小型企业并非互联网公司,没有人力和时间像百度谷歌那样做出高效的搜索产品,同时互联网通用搜索引擎也不能完全满足企业的搜索要求,存在信息无法及时检索到,企业内部信息出于安全考虑也不能交给通用搜索引擎爬取数据。因此如何为那些具备一定的数据集,但开发能力较弱的中小型企业提供高效的搜索计算服务,使其摆脱“信息迷航”和“信息过载”带来的困扰,成为搜索领域研究的热点和难点。本文首先介绍了搜索引擎的发展历史,和比较流行的开源搜索引擎组件Hadoop,Nutch和Solr。然后深入研究了网页链接排序算法Page Rank,在分析了传统Page Rank算法的代数原理和分布式实现后,针对其平均分配权值的缺陷,本文提出了一种结合网页本体内容和链接关系的PR转移概率分配策略。之后详细介绍了分布式爬虫Nutch的内部结构和功能模块后,将其与Hadoop平台结合通过Map Reduce的方式完成网络数据的并发下载,具有爬取速度快,爬取网页量大的特点。数据检索和数据索引是搜索引擎的重要部分,其性能直接影响到企业的数据处理量和用户体验。Solr作为封装了Lucene的搜索接口具有很好的搜索和索引能力,在介绍了solr的架构和特点后,设计了一种分布式的集群框架,利用Solr作为检索工具,具有可扩展能力和容错能力强,能处理海量检索请求等优势,实现了分布式垂直搜索引擎雏形。通过实验对比单机搜索,证明在网页数据达到两万甚至更高时,分布式搜索在数据爬取,数据索引和数据检索上消耗的时间大大小于单机搜索时的时间消耗,在将搜索结果结合改进的Page Rank算法和向量空间模型算法进行网页打分,很大程度上提高了搜索精确度,且分布式搜索系统具有个性化能力强,扩展简单的特点,系统稳定性和安全性都得到保障,能很好满足中小企业的搜索要求,为企业带来低成本高回报的搜索服务。
二、WebLight——一个集文档管理的综合搜索引擎(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、WebLight——一个集文档管理的综合搜索引擎(论文提纲范文)
(1)基于容器技术的实训平台的设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 引言 |
1.1 项目背景 |
1.2 国内外发展现状 |
1.3 本文主要工作 |
1.4 本文组织结构 |
第二章 技术综述 |
2.1 容器技术 |
2.1.1 Docker |
2.1.2 Kubernetes |
2.2 Angular框架 |
2.2.1 架构概览 |
2.2.2 前端框架对比 |
2.3 Spring Data框架 |
2.3.1 框架简介 |
2.3.2 JPA |
2.4 Spring Security框架 |
2.4.1 框架简介 |
2.4.2 框架原理 |
2.4.3 CAS单点登录 |
2.5 noVNC |
2.5.1 VNC系统 |
2.5.2 noVNC架构 |
2.6 Redis数据库 |
2.7 TDH星环大数据平台 |
2.8 Sophon星环人工智能平台 |
2.9 本章小结 |
第三章 TU需求分析与设计 |
3.1 TU需求分析 |
3.1.1 总体需求分析 |
3.1.2 课程模块 |
3.1.3 教学模块 |
3.1.4 教学管理模块 |
3.1.5 资源管理模块 |
3.1.6 用户模块 |
3.1.7 日志模块 |
3.2 TU总体分析与详细设计 |
3.2.1 系统总体设计 |
3.2.2 理论课程详细设计 |
3.2.3 实验课程详细设计 |
3.2.4 系列课程详细设计 |
3.2.5 考试流程详细设计 |
3.3 TU数据库设计 |
3.3.1 原则设计 |
3.3.2 数据库概念设计 |
3.3.3 数据库逻辑设计 |
3.3.4 数据库物理设计 |
3.4 本章小结 |
第四章 TU的实现 |
4.1 课程模块的实现 |
4.1.1 课程展示功能 |
4.1.2 课程练习功能 |
4.1.3 课程评价功能 |
4.2 实验容器的实现 |
4.2.1 实验容器部署 |
4.2.2 实验容器构成 |
4.2.3 TDH与Sophon的接入 |
4.3 教学模块的实现 |
4.3.1 课程资源上传功能 |
4.3.2 学习进度展示功能 |
4.4 资源管理模块的实现 |
4.4.1 用户管理功能 |
4.4.2 班级管理功能 |
4.4.3 课程管理功能 |
4.4.4 集群管理功能 |
4.5 教学管理模块的实现 |
4.5.1 创建教学计划功能 |
4.5.2 成绩管理功能 |
4.5.3 容器管理功能 |
4.6 用户模块的实现 |
4.6.1 CAS登录功能 |
4.6.2 个人信息管理功能 |
4.7 日志模块的实现 |
4.8 本章小结 |
第五章 TU的系统测试 |
5.1 系统测试概述 |
5.1.1 系统测试环境 |
5.1.2 测试工作描述 |
5.2 单元测试 |
5.3 功能测试 |
5.3.1 课程模块 |
5.3.2 教学模块 |
5.3.3 资源管理模块 |
5.3.4 教学管理模块 |
5.3.5 用户模块 |
5.3.6 日志模块 |
5.3.7 测试结果 |
5.4 非功能性测试 |
5.4.1 兼容性测试 |
5.4.2 性能测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
6.2.1 功能方面 |
6.2.2 性能方面 |
参考文献 |
简历与科研成果 |
致谢 |
(2)基于大数据的政府公共舆论信息平台存储与处理技术研究(论文提纲范文)
摘要 |
ABSTRACT |
一、绪论 |
1.1 研究背景 |
1.2 国内外舆论信息系统研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 研究内容及意义 |
1.4 研究路线及其方法 |
1.5 各章节内容安排 |
二、关键技术研究 |
2.1 大数据概述 |
2.1.1 大数据相关技术 |
2.1.2 大数据平台系统框架 |
2.2 网络爬虫技术分析研究 |
2.2.1 网络爬虫技术概述 |
2.2.2 网络爬虫的分类及特点 |
2.2.3 网络爬虫在公共舆论信息平台中的应用背景 |
2.3 Lucene索引技术分析研究 |
2.3.1 Lucene索引技术概述 |
2.3.2 Lucene索引技术的特点 |
2.3.3 Lucene索引技术在公共舆论信息平台中的应用背景 |
2.4 SSH2框架技术分析研究 |
2.4.1 SSH2框架概述 |
2.4.2 SSH2框架分析 |
2.5 文本分类技术 |
2.5.1 中文分词技术 |
2.5.2 文档分类算法 |
2.6 情感分类技术及方法 |
2.7 WEKA平台技术分析研究 |
2.7.1 WEKA平台概述 |
2.7.2 WEKA平台功能介绍 |
2.7.3 WEKA平台的分类算法 |
2.8 本章小结 |
三、需求分析 |
3.1 政府公共舆论信息平台的业务需求分析 |
3.2 政府公共舆论信息平台的功能需求分析 |
3.2.1 用户用例 |
3.2.2 功能需求 |
3.3 政府公共舆论信息平台的非功能性需求 |
3.3.1 性能需求 |
3.3.2 准确性需求 |
3.3.3 扩展性需求 |
3.3.4 可靠性需求 |
3.4 本章小结 |
四、政府公共舆论信息平台设计 |
4.1 系统架构设计 |
4.1.1 系统软件架构 |
4.1.2 系统服务器部署 |
4.2 系统详细设计 |
4.2.1 信息采集模块 |
4.2.2 信息索引模块 |
4.2.3 信息处理模块 |
4.2.4 信息分析模块 |
4.2.5 信息预警模块 |
4.2.6 系统管理模块 |
4.3 系统数据库设计 |
4.4 本章小结 |
五、政府公共舆论信息平台的实现 |
5.1 系统的实现 |
5.1.1 信息采集模块的实现 |
5.1.2 信息索引模块的实现 |
5.1.3 信息分析模块的实现 |
5.2 系统测试 |
5.2.1 功能测试 |
5.2.2 系统性能测试 |
5.3 本章小结 |
六、总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(3)基于数字信号处理理论的信息检索模型研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与研究意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状述评 |
1.2.1 信息检索模型 |
1.2.2 检索模型与管理信息系统 |
1.2.3 存在的主要问题 |
1.3 研究内容与研究架构 |
1.3.1 主要研究内容 |
1.3.2 本文的组织结构 |
1.4 论文的主要创新点 |
2 相关模型与模型构架 |
2.1 相关模型构架 |
2.1.1 查询词的表示 |
2.1.2 文本的表示 |
2.1.3 检索过程的表示 |
2.2 相关模型介绍 |
2.2.1 BM25 |
2.2.2 DLM |
2.2.3 MATF |
2.2.4 LSPR-VSM |
2.2.5 LSPR-BM25 |
3 基于DSP理论的信息检索模型构架 |
3.1 查询的表示 |
3.2 文本的表示 |
3.3 检索过程的表示 |
4 基于DSP理论与概率模型词项权重计算的检索模型 |
4.1 DSPF-BM25 |
4.2 模型效果检验 |
4.2.1 实验设置 |
4.2.2 实验参数设置 |
4.2.3 实验结果分析 |
4.2.4 参数敏感性检验 |
4.3 本章小结 |
5 基于DSP理论与统计语言模型词项权重计算的检索模型 |
5.1 DSPF-DLM |
5.2 模型效果检验 |
5.2.1 实验设置 |
5.2.2 实验参数设置 |
5.2.3 实验结果分析 |
5.2.4 参数敏感性检验 |
5.3 本章小结 |
6 基于DSP理论与向量空间模型词项权重计算的检索模型 |
6.1 DSPF-MATF |
6.2 模型效果检验 |
6.2.1 实验设置 |
6.2.2 实验参数设置 |
6.2.3 实验结果分析 |
6.2.4 参数敏感性检验 |
6.3 本章小结 |
7 基于DSPF模型的检索系统实现 |
7.1 系统背景语料介绍 |
7.2 系统的相关介绍 |
7.3 系统的主要界面 |
7.4 系统的返回结果 |
7.5 本章小结 |
8 总结和展望 |
8.1 全文总结 |
8.2 未来工作 |
参考文献 |
博士在读期间成果与奖励 |
致谢 |
(4)基于潜在语义关系的伪相关反馈查询扩展技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 研究内容 |
1.4 本文的组织结构 |
第二章 伪相关反馈技术研究现状 |
2.1 信息检索与伪相关反馈发展简述 |
2.1.1 信息检索技术 |
2.1.2 相关反馈与查询扩展技术 |
2.1.3 伪相关反馈技术 |
2.2 伪相关反馈技术相关研究概述 |
2.2.1 基于向量空间模型的伪相关反馈技术 |
2.2.2 基于语言模型的伪相关反馈技术 |
2.2.3 基于位置信息的伪相关反馈技术 |
2.2.4 基于深度学习模型的伪相关反馈技术 |
2.2.5 基于其他方法的伪相关反馈技术 |
2.3 本章小结 |
第三章 基于词项超空间语义的伪相关反馈查询扩展研究 |
3.1 引言 |
3.2 语义空间 |
3.3 超空间模拟语言 |
3.4 Rocchio伪相关反馈框架 |
3.5 基于词项超空间语义的伪相关反馈 |
3.5.1 词项超空间语义权重 |
3.5.2 融入词项超空间语义的伪相关反馈模型 |
3.5.3 归一化方法 |
3.6 实验相关设置 |
3.6.1 实验数据集及评价标准 |
3.6.2 基线模型 |
3.6.3 参数设置 |
3.7 实验结果和讨论 |
3.7.1 与基线模型比较 |
3.7.2 与其他伪相关反馈模型比较 |
3.7.3 归一化函数的对比分析 |
3.7.4 动态自适应窗口值分析 |
3.7.5 实验结果与讨论 |
3.7.6 局限性 |
3.8 本章小结 |
第四章 基于核函数词项共现语义的伪相关反馈查询扩展研究 |
4.1 引言 |
4.2 基于核函数词项共现的伪相关反馈方法 |
4.2.1 传统的PRF模型框架 |
4.2.2 核函数词项共现语义权重 |
4.2.3 基于核函数的词项共现语义框架 |
4.3 实验设置 |
4.3.1 数据集和评价标准 |
4.3.2 基线模型和其他相关对比模型介绍 |
4.3.3 参数设置 |
4.4 实验设计、结果与分析 |
4.4.1 基准实验 |
4.4.2 与强基线模型比较 |
4.4.3 与重要的伪相关反馈模型比较 |
4.4.4 参数敏感性 |
4.4.5 分析和讨论 |
4.5 本章小结 |
第五章 基于BERT模型句子潜在语义的伪相关反馈查询扩展研究 |
5.1 引言 |
5.2 句子语义 |
5.2.1 句子向量 |
5.2.2 句子的向量表示 |
5.2.3 句子语义相似度计算—BERT模型 |
5.3 基于BERT模型句子语义相似度的伪相关反馈方法 |
5.3.1 基于BERT的句子语义特征 |
5.3.2 融入句子语义特征到Rocchio模型 |
5.4 实验设置和结果分析 |
5.4.1 实验设置 |
5.4.2 与强基线模型比较 |
5.4.3 与其他经典的模型比较 |
5.4.4 参数敏感性 |
5.5 本章小结 |
第六章 总结和展望 |
6.1 全文总结 |
6.2 未来工作 |
参考文献 |
研究成果及参与的科研项目 |
研究成果 |
已发表的科研论文 |
已投的科研论文 |
国家发明专利 |
软件着作权 |
参与的科研项目 |
致谢 |
(5)社会化搜索平台用户持续使用意愿的影响因素研究 ——以微信搜索为例(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究现状 |
1.2.1 社会化搜索的内涵研究 |
1.2.2 社会化搜索的技术研究 |
1.2.3 社会化搜索的用户研究 |
1.3 研究对象及问题 |
1.3.1 研究对象 |
1.3.2 研究问题 |
1.4 研究内容及方法 |
1.4.1 研究内容 |
1.4.2 研究方法 |
2 理论基础 |
2.1 SOR模型 |
2.2 ECM-ISC模型 |
2.3 技术采纳与利用整合理论 |
2.4 信息系统成功模型 |
3 模型构建与假设提出 |
3.1 模型构建 |
3.2 模型变量与研究假设 |
3.2.1 持续使用意愿 |
3.2.2 感知有用性 |
3.2.3 满意度 |
3.2.4 社会影响 |
3.2.5 系统质量、信息质量 |
3.2.6 觉知性 |
4 问卷设计与数据收集 |
4.1 问卷设计 |
4.2 问卷前测 |
4.3 问卷发放与收集 |
5 数据分析与结果讨论 |
5.1 样本特征和描述性统计分析 |
5.1.1 人口统计特征分析 |
5.1.2 微信搜索行为分析 |
5.1.3 测量指标统计分析 |
5.2 分析方法及工具 |
5.3 信度与效度分析 |
5.3.1 信度分析 |
5.3.2 效度分析 |
5.4 假设检验 |
5.5 结果及讨论 |
0层面'>5.5.1 S->0层面 |
R层面'>5.5.2 O->R层面 |
R层面'>5.5.3 S->R层面 |
6 结语 |
6.1 研究结论 |
6.2 对策建议 |
6.3 研究贡献 |
6.4 研究展望 |
参考文献 |
附录一 本研究调查问卷 |
附录二 在学期间发表论文及参与科研情况 |
致谢 |
(6)基于NoSql的教育资源云平台的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文所做的工作 |
1.4 论文组织结构 |
2 相关技术介绍 |
2.1 NoSql技术 |
2.2 MongoDB相关技术 |
2.2.1 MongoDB的存储引擎 |
2.2.2 MongoDB的架构模式 |
2.3 消息队列中间件 |
2.4 Lucene相关技术介绍 |
2.4.1 Lucene的功能特点 |
2.4.2 Lucene的体系结构 |
2.4.3 Lucene的索引结构 |
3 教育资源云平台的构建 |
3.1 教育资源云平台总体设计 |
3.1.1 教育资源云平台体系结构设计 |
3.2 教育资源云平台用例设计 |
3.3 资源存储与管理子系统 |
3.3.1 资源的存储和管理方案 |
3.3.2 核心流程和算法 |
3.4 基于圈子的资源共享子系统 |
3.4.1 实体关系设计 |
3.4.2 核心流程设计 |
3.4.3 共享资源的推荐方法 |
3.5 教育知识树与用户标签子系统 |
3.5.1 概念定义 |
3.5.2 教育知识树与用户标签子系统总体设计 |
3.5.3 教育知识树构建与维护规则 |
3.6 资源综合搜索子系统 |
3.6.1 关键字与分类检索 |
3.6.2 基于Lucene的全文检索 |
3.6.3 基于知识树和用户标签标注的关联检索 |
3.6.4 检索场景与结果排序 |
4 教育资源云平台的高可用方案 |
4.1 web服务的负载均衡与session共享方案 |
4.2 教育资源的高可用存储方案 |
4.3 关系数据库的高可用集群方案 |
4.4 平台高可用性方案的整合 |
5 教育资源云平台负载测试 |
5.1 测试环境介绍 |
5.2 测试过程 |
5.3 测试结果分析 |
6 总结与展望 |
6.1 本文工作总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
附录 |
A. 作者在攻读学位期间取得的科研成果目录 |
B. 教育资源云平台功能模块测试 |
B.1 用户登录模块的功能测试 |
B.2 用户角色管理模块的功能测试 |
B.3 资源上传模块的功能测试 |
B.4 用户群组管理模块的功能测试 |
B.5 资源检索模块的功能测试 |
B.6 资源关联模块的功能测试 |
(7)搜索引擎中的索引压缩和查询问题研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 搜索引擎面临的性能挑战 |
1.1.2 如何提升搜索引擎的性能 |
1.1.3 研究意义 |
1.2 搜索引擎性能研究 |
1.2.1 系统性能评价指标 |
1.2.2 倒排索引压缩和查询的关系 |
1.3 本文主要研究工作 |
1.4 论文组织结构 |
第二章 倒排索引基本理论 |
2.1 倒排索引组织结构 |
2.1.1 倒排索引数据组成 |
2.1.2 倒排项的排列方式 |
2.2 倒排索引压缩算法 |
2.2.1 比特对齐压缩 |
2.2.2 字节对齐压缩 |
2.2.3 32/64 位字对齐压缩 |
2.3 倒排索引查询算法 |
2.3.1 穷尽遍历算法 |
2.3.2 动态剪枝算法 |
2.3.3 经典动态剪枝算法实例 |
2.4 本章小结 |
第三章 分组密集Simple9压缩算法 |
3.1 引言 |
3.2 密集Simple9压缩算法 |
3.2.1 数据存储格式 |
3.2.2 压缩算法描述 |
3.2.3 解压算法描述 |
3.3 分组Simple9压缩算法 |
3.3.1 数据存储格式 |
3.3.2 压缩算法描述 |
3.3.3 解压算法描述 |
3.4 实验测试与结果分析 |
3.4.1 实验设置和测试数据 |
3.4.2 密集Simple9压缩测试 |
3.4.3 分组Simple9压缩测试 |
3.5 本章小结 |
第四章 基于必要表跳跃访问的Max Score查询算法 |
4.1 引言 |
4.2 加快倒排链表的访问速度 |
4.2.1 自索引结构的作用 |
4.2.2 多层自索引结构设计 |
4.2.3 倒排链表对象及其方法 |
4.3 ELS-Max Score查询算法 |
4.3.1 自索引结构下的AND过滤 |
4.3.2 Max Score算法存在的问题 |
4.3.3 ELS-Max Score查询算法 |
4.4 实验测试与结果分析 |
4.4.1 自索引结构对动态剪枝算法的影响 |
4.4.2 ELS-Max Score查询性能测试 |
4.4.3 返回结果个数k对查询性能的影响 |
4.5 本章小结 |
第五章 最大重要度优先查询算法 |
5.1 引言 |
5.2 词项重要度对查询的影响 |
5.2.1 WAND算法存在的问题 |
5.2.2 激进式Max Score算法 |
5.2.3 词项重要度影响候选文档的选择 |
5.3 最大重要度优先查询算法 |
5.3.1 LSF穷尽索引遍历算法 |
5.3.2 基于LSF的动态剪枝算法 |
5.3.3 算法描述和分析 |
5.4 实验测试与结果分析 |
5.4.1 LSF穷尽遍历算法性能测试 |
5.4.2 基于LSF的动态剪枝算法性能测试 |
5.4.3 考虑各种因素的扩展性能测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 未来研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(8)时间感知的Web搜索研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
插图目录 |
表格目录 |
第1章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外相关研究综述 |
1.3.1 时间信息 |
1.3.2 时间感知排序 |
1.3.3 查询时间扩展 |
1.3.4 时间感知搜索系统 |
1.4 本文研究内容 |
1.5 本文的组织结构 |
1.5.1 内容组织 |
1.5.2 文献综述 |
第2章 网页首要时间抽取 |
2.1 引言 |
2.2 相关工作 |
2.3 时间表达式的抽取 |
2.3.1 时间表达式的分类 |
2.3.2 时间表达式抽取方法 |
2.4 网页首要时间确定算法 |
2.4.1 时间粒度选择 |
2.4.2 网页首要时间的确定方法 |
2.5 实验结果及分析 |
2.5.1 实验设置 |
2.5.2 实验评估 |
2.6 本章小结 |
第3章 基于时间的网页排序算法 |
3.1 引言 |
3.2 相关工作 |
3.3 时间表示模型 |
3.4 网页的时间相似性 |
3.4.1 时间相似性算法 |
3.4.2 网页重排序 |
3.5 实验结果与分析 |
3.5.1 实验设置 |
3.5.2 实验评估 |
3.6 本章小结 |
第4章 基于权重矩阵的查询时间扩展 |
4.1 引言 |
4.2 相关工作 |
4.3 候选句子获取 |
4.4 查询时间扩展 |
4.4.1 权重矩阵 |
4.4.2 查询时间词扩展算法 |
4.5 实验结果与分析 |
4.5.1 实验设置 |
4.5.2 实验评估 |
4.6 本章小结 |
第5章 时间感知的Web搜索原型系统 |
5.1 引言 |
5.2 相关工作 |
5.3 TASE系统架构 |
5.4 TASE的设计与实现 |
5.4.1 实现工具 |
5.4.2 界面设计 |
5.4.3 功能实现 |
5.4.4 数据存储 |
5.5 本章小结 |
第6章 结束语 |
6.1 本文的主要工作 |
6.2 本文的主要贡献和创新点 |
6.3 下一步的研究工作 |
参考文献 |
致谢 |
在读期间发表的学术论文 |
在读期间参加的科研项目与获奖情况 |
(9)区域数字图书馆云服务平台的构建与实践(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 文献综述 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 研究方法与思路 |
1.3.1 研究方法 |
1.3.2 研究思路 |
第二章 区域数字图书馆云服务平台的相关概念基础 |
2.1 区域数字图书馆 |
2.1.1 区域数字图书馆内涵 |
2.1.2 区域数字图书馆的功能定位 |
2.1.3 区域数字图书馆建设的整体思路及原则 |
2.2 数字图书馆与云服务 |
2.2.1 云计算的内涵 |
2.2.2 云计算的服务形式 |
2.2.3 云计算的关键技术 |
2.2.4 云计算对数字图书馆的影响 |
第三章 国外下一代图书馆服务平台实践现状 |
3.1 商业机构开发的下一代平台分析 |
3.1.1 WorldShare--OCLC |
3.1.2 Sierra--Innovative Interface |
3.1.3 Alma--Ex Libris |
3.1.4 Intota--Serial Solutions |
3.1.5 BLUE Cloud Suite--SirsiDynix |
3.2 开源系统研发的下一代服务平台分析 |
3.2.1 Kuali OLE |
3.2.2 Open Skies--VTLS |
3.3 其他下一代服务平台分析 |
第四章 区域数字图书馆云服务平台的模型构建 |
4.1 云服务平台模型的构建思路 |
4.2 云服务平台模型的构成要素 |
4.2.1 资源服务云平台 |
4.2.2 学科服务云平台 |
4.2.3 管理服务云平台 |
4.2.4 数据中心 |
4.2.5 移动门户 |
4.3 云服务平台模型的构建 |
4.3.1 资源服务云平台模型 |
4.3.2 学科服务云平台模型 |
4.3.3 管理服务云平台模型 |
4.3.4 数据中心模型 |
4.3.5 移动门户模型 |
第五章 区域数字图书馆云服务平台的建设实践—以江苏省高校图书馆为例 |
5.1 资源服务云平台 |
5.1.1 资源整合检索子系统 |
5.1.2 智能文献传递子系统 |
5.1.3 机构知识总库子系统 |
5.1.4 资源加工出版子系统 |
5.2 学科服务云平台 |
5.2.1 学科资源子系统 |
5.2.2 学科热点子系统 |
5.2.3 科技查新子系统 |
5.2.4 查收查引子系统 |
5.3 管理服务云平台 |
5.3.1 电子资源协调采购系统 |
5.3.2 馆务事实分析系统 |
5.3.3 电子资源绩效评估系统 |
5.3.4 论文竞争力分析系统 |
5.3.5 专利竞争力分析系统 |
5.3.6 基金竞争力分析系统 |
5.4 数据中心 |
5.4.1 分布式计算系统 |
5.4.2 集中存储方案 |
5.4.3 数据备份系统 |
5.5 移动门户 |
第六章 结论与展望 |
6.1 结论 |
6.2 未来展望 |
参考文献 |
致谢 |
(10)基于Hadoop的搜索引擎关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 搜索引擎背景和意义 |
1.2 搜索引擎发展现状 |
1.2.1 国内搜索引擎发展历史 |
1.2.2 分布式搜索引擎发展研究现状 |
1.3 本文的研究内容和创新点 |
1.4 全文组织结构 |
第二章 搜索开源组件介绍 |
2.1 Hadoop相关技术研究 |
2.1.1 Hadoop简介 |
2.1.2 Hadoop分布式文件系统 |
2.1.3 分布式处理框架——MapReduce |
2.2 Nutch系统分析 |
2.2.1 Nutch简介 |
2.2.2 Nutch工作流程 |
2.3 solr系统架构与特点 |
2.3.1 Solr简介 |
2.3.2 Solr总体架构 |
2.4 本章小结 |
第三章 PageRank算法改进研究 |
3.1 经典排序算法PageRank解析 |
3.2 Page Rank算法的分布式实现 |
3.3 传统PageRank算法的缺陷和改进 |
3.4 实验分析 |
3.5 本章小结 |
第四章 基于Hadoop搜索引擎系统设计与实现 |
4.1 系统结构总体设计 |
4.2 分布式爬行子系统 |
4.2.1 爬行流程分析 |
4.2.2 分布式爬行子系统的设计与实现 |
4.3 分布式索引子系统 |
4.3.1 Solr的安装配置 |
4.3.2 Solr中加入中文分词 |
4.3.3 Solr实现索引 |
4.4 分布式检索子系统 |
4.4.1 分布式检索系统简介 |
4.4.2 集群和索引复制 |
4.4.3 索引分配策略 |
4.5 本章小结 |
第五章 系统运行与分析 |
5.1 企业级高效搜索的需求分析 |
5.2 系统部署和实现 |
5.2.1 运行环境和软件包 |
5.2.2 分布式搜索引擎环境搭建 |
5.3 性能评价 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
四、WebLight——一个集文档管理的综合搜索引擎(论文参考文献)
- [1]基于容器技术的实训平台的设计与实现[D]. 朱颖. 南京大学, 2020(02)
- [2]基于大数据的政府公共舆论信息平台存储与处理技术研究[D]. 王倩. 内蒙古大学, 2020(01)
- [3]基于数字信号处理理论的信息检索模型研究[D]. 应志为. 华中师范大学, 2019(01)
- [4]基于潜在语义关系的伪相关反馈查询扩展技术研究[D]. 潘敏. 华中师范大学, 2019(01)
- [5]社会化搜索平台用户持续使用意愿的影响因素研究 ——以微信搜索为例[D]. 杜春凤. 南京大学, 2018(01)
- [6]基于NoSql的教育资源云平台的设计与实现[D]. 邓忠. 重庆大学, 2017(06)
- [7]搜索引擎中的索引压缩和查询问题研究[D]. 姜琨. 国防科学技术大学, 2015(11)
- [8]时间感知的Web搜索研究[D]. 林盛. 中国科学技术大学, 2015(09)
- [9]区域数字图书馆云服务平台的构建与实践[D]. 朱宇. 南京大学, 2015(05)
- [10]基于Hadoop的搜索引擎关键技术研究[D]. 万轶. 武汉理工大学, 2015(01)