【论文简介】WebContentExtractionThroughMachineLearning

时间：2023-04-03 16:04:47 Node.js

《Web Content Extraction Through Machine Learning》Extractingwebpagecontentthroughmachinelearning2014年未发表期刊会议，作者ZiyanZhou@stanford.edu个人资料数据集基于新闻文章网站数据集链接Https：//github.com/ziyan/spid...网页分割本文使用phantom.js作为headlesswebkitbrowser（headlessbrowser，现在有更好的方式，比如puppeteer.js）为每一个文本DOM元素，该算法将找到其最近的标记为块的父元素。遗憾的是，作者并没有详细说明一些噪声数据的处理。块效果如图。由于不同网页的设计和布局差异较大，作者选择DBSCAN作为聚类算法来解决簇数未知/簇形状未知/噪声（未给出距离函数）等问题。DBSCAN密度聚类算法的一般原理是选择一个样本节点，将所有密度可达的样本集中起来形成一个类。与k-means聚类算法相比，它更适用于密集的数据库。如果您想了解更多信息，可以单击此处。内容块通过比较文本之间的差异与标题介绍等元信息（最长公共子序列LCS算法）来评估每个聚类与描述之间的相似性。分类支持向量机SVM和交叉验证特征选择以下特征效果增加序列文本长度标签路径CSS选择器CSS属性总结emmm，有点浅，数据集太小，针对性太强，导致效果不错，但是没有说服力，还有借鉴的地方。

上一篇：协源码解读

下一篇：npm安装node-sass失败原因解决方法

【论文简介】WebContentExtractionThroughMachineLearning相关文章