当前位置: 首页 > 后端技术 > Node.js

【论文简介】WebContentExtractionThroughMachineLearning

时间:2023-04-03 16:04:47 Node.js

《Web Content Extraction Through Machine Learning》Extractingwebpagecontentthroughmachinelearning2014年未发表期刊会议,作者ZiyanZhou@stanford.edu个人资料数据集基于新闻文章网站数据集链接Https://github.com/ziyan/spid...网页分割本文使用phantom.js作为headlesswebkitbrowser(headlessbrowser,现在有更好的方式,比如puppeteer.js)为每一个文本DOM元素,该算法将找到其最近的标记为块的父元素。遗憾的是,作者并没有详细说明一些噪声数据的处理。块效果如图。由于不同网页的设计和布局差异较大,作者选择DBSCAN作为聚类算法来解决簇数未知/簇形状未知/噪声(未给出距离函数)等问题。DBSCAN密度聚类算法的一般原理是选择一个样本节点,将所有密度可达的样本集中起来形成一个类。与k-means聚类算法相比,它更适用于密集的数据库。如果您想了解更多信息,可以单击此处。内容块通过比较文本之间的差异与标题介绍等元信息(最长公共子序列LCS算法)来评估每个聚类与描述之间的相似性。分类支持向量机SVM和交叉验证特征选择以下特征效果增加序列文本长度标签路径CSS选择器CSS属性总结emmm,有点浅,数据集太小,针对性太强,导致效果不错,但是没有说服力,还有借鉴的地方。