注:前端无关---只是用node实现如何爬取网站数据(大学课程实验)网页索引与检索实验目的l了解工作原理及实现搜索引擎的方法;l熟悉倒排索引的创建;l掌握查询处理技术。实验要求l独立或合作(1~2人)完成实验内容;l独立完成实验报告;(简单要求如下)1)实验的目的、内容和要求以及实验环境的描述;2)索引和检索系统Framework的设计思路和总体设计;3)(负责部分)具体实现的程序结构和流程分析,提供主要数据结构、功能分析等;4)实验结果分析;5)系统的优缺点,需要改进的地方;6)在实验过程中遇到的问题和实验的体会。实验内容3.1倒排索引(1)网页预处理。对实验一采集的网页数据进行预处理,包括:网页去噪和文本信息提取、中文分词、停用词处理等。(2)设计并创建倒排索引。对于每个索引术语,至少应记录其文档频率(df)。设计嵌入文件的数据结构,至少记录每个词在每个文档中出现的次数,即词频(tf)。同时,对于每一个文档,记录其文档长度。(3)针对索引过程,生成相关统计信息,如:创建索引所需时间、索引大小、词表长度、df值最大的词列表大小等.(可选)3.2检索系统(1)设计并实现一个简单的检索系统,可以输入搜索词,输出查询结果,按相关性排序。(2)对于指定的查询词(IR2019querywords.txt),给出每个查询结果的排名和相似度得分。提交的结果将被评估。提交的结果文件由查询结果的数据块组成。每个查询词对应一个结果数据块,每个查询词提交10个查询结果。每个结果数据块的格式如下:第一行是查询词的序号,比如“TD01”,每行是一条查询结果记录,格式为:
