想了解更多开源,请访问:开源基础软件社区https://ost.51cto.com无论论文简介与否它在每个人的刻板印象中,或者真正读过之后,会给你一种感觉。涉及的知识量巨大,对底层原理的理解相当具有挑战性,公式的推导极其耗脑。综上所述,论文确实是一块硬骨头,所以用“啃”这个词来形容论文的阅读是再合适不过了。但对于硬骨头,真正的“硬骨头”大家已经啃过了,其精髓可能就藏在骨头里,需要仔细阅读正文才能发现和获取;它会伤害你的牙齿,例如,你开始与数学公式作斗争。同时,也可能出现大块肉密布的情况,即这篇文章的摘要部分包含了很多信息,有很多有价值的信息,但每个可能都需要被查询。对于这种久旱逢雨的情况,可能有人吃得痛快,大家开始疯狂寻找。一会就打开几十个页面,一不小心就可能被噎住,不一会儿就变庞大了。信息量的影响可能会造成眼花缭乱的感觉,一不小心就会偏离方向。综上所述,无论是因为看不懂论文还是看论文的方法不当,我们都会陷入浩如烟海的文献中,迷失方向,迷失自我。然后给出两种看论文的方法,一种是我们组到今天参加论文社的方法,一种是清华大学彭明辉教授的方法。在上图中,我们已经详细给出了俱乐部的方法和彭教授的方法,并且我们在彭教授的方法的基础上与我们俱乐部的方法做了相应的对比。下面我们将对上图中的部分信息进行一定程度的扩充和补充。1.目标导向这两种方法的最终目标导向是不同的。彭教??授方法的目标定位是在已有学术成果的基础上创造新知识,力求实现理论突破。俱乐部论文的目标定位:探索现有文献中是否有更好的技术可以替代现有技术,并尝试在代码层面实现应用。2、在能力导向层面,我们论文社团和彭教授的要求是差不多的。彭教??授的方法:俱乐部方法:数据检索能力您使用什么样的关键字和搜索程序来确保找到所有相关文件?这是第一个大挑战。筛选材料的能力在没有完全理解内容的情况下,只看论文的标题、摘要、引言和结论,如何才能准确判断论文中是否有值得你进一步参考的内容,从而快速阅读数需要仔细阅读的论文从数百篇减少到几篇?阅读期刊论文的能力是从未组织的知识中检索、过滤和组织知识的能力。分析期刊论文的能力。准确批判一切的能力。一个经过严格训练的合格师傅,做事应该不需要人在背后验证。他应该有能力分析自己的优势。、缺点,主动向上级或平行单位寻求支持。事实上,至少你必须能够完成这个能力,才能勉强说你有“独立判断能力”。创新能力硕士毕业生应具备创造知识的能力。3.论文阅读部分,彭教授构建一个领域认知的方法是基于大量的文献,然后阅读和梳理该领域的技术,目的是找到三个问题的答案.我们分会采用先读复习的方式,可以快速完成复习中的这一部分。当然,如果实在找不到相关的综述,也可以用彭教授的排序法。但同时,我们在看review的时候,可以去寻找彭教授说的三个问题的答案,效率会更高。彭教??授的方法:Club方法:PartⅠAbstract/Introduction一定要学会只看Abstract和Introduction来判断这篇论文的重点是不是和你的研究直接相关,然后再决定是否阅读。(以后不管是做生意还是做学术研究,我都有能力从比别人更广泛的文献中挑出最有价值的参考资料。)功能:问题背景的由来。前辈们做出了重大贡献。前人未解决的问题。在此背景下,提出本文所要解决的问题和重要性。操作步骤:目的:让初学者了解前人研究的概况。收集30-40篇可能与主题相关的论文<=>阅读评论,这样更容易。只阅读摘要和引言,不要阅读正文(本文),并在必要时参考示例和结论。直到你能回答以下三个问题:(复习可以给你答案)。该领域最常被引用的方法是什么?(问题A)【技术地图】。这些方法可以分为哪些主要派别?(问题B)【技术地图】。每个派系的主要特征(优点和缺点)是什么?(问题C)。无法回答(问题C)。第一步:根据(问题A)的答案,找出该领域被引用次数最多的论文。第二步:根据(问题B)的答案分成派别,每个派别按时间顺序排列。第三步:只重读一所学校的Abstract和Introduction。必要时略作参考,目的是阅读引言中与本派有关的陈述,而不是真正理解全文。按时间顺序阅读,阅读时尽量只回答一个问题:这所学校的独创性和主要吸引力是什么?就这样,你一一阅读各个学校的Abstract和Introduction,总结出这个学校的主要诉求、方法特点和优势(每篇paper都会说出自己的优势,仔细看不会漏掉的。).其次,你又把这些论文拿出来,但只读了Introduction,认真回答下面的问题:“每篇论文对其他学校有什么批评?”然后你把自己看的重点一一记录在各个学校的“劣势”一栏里面。通过以上过程,你应该可以掌握(问题A)、(问题B)、(问题C)三个问题的答案了。这时候,你已经相当熟悉该领域的主要方法和文献之间的关系了,但你仍然只仔细阅读了Abstract和Introduction,只是笼统地阅读了正文。硕士生一定要学会选择性阅读,一定要锻炼他选择的准确性和速度,不要把时间浪费在学习不需要的细节上!吸收更多的“想法”比详细的知识更重要。“这同样适用于俱乐部”。PartⅡ关键词修正、论文筛选目前掌握该领域主要论文,测试关键词是否不合适,修正关键词再检索,补齐该领域主要文献,筛选出离目标较远的论文原始30-40篇论文,只保留20篇左右被确认关系比较密切的文献。如果你确定,你可以删除一两个你不想使用的派系(有充分理由),只保留两三个派系(有充分理由)并继续完成下面的工作。第三部分利用(问题C)每个派系的主要特点(包括优点和缺点)是什么?回答,然后进一步回答一个问题:大家认为这个领域重要的关键问题是什么?哪些特点是大家看重的优点?每个人都关心的缺点是什么?这些优点和缺点通常在哪些应用中更受关注?它在哪些应用中价值较低?目的:梳理该领域(研究课题)的主要应用场合,以及在这些应用场合应注意的事项。[技术地图]最后,在你真正开始阅读论文主体之前。你应该从:(问题A)这个领域最常被引用的方法是什么开始?以及(问题C)每个派系的主要特征(优势和劣势)是什么?答案。将各派的论文整理在同一个文件夹中,并按时间顺序排列。然后根据这些派系之间的关系和你的研究方向,将各个派系的主体内容一一阅读。对于俱乐部,我们可能锚定具体的应用场景,然后根据场景阅读主体,而不是上面的流程。PartⅣ阅读主体(对应三题)——(更多内容结合文中图表理解)a.这篇论文的主要假设是什么(在什么条件下是有效的),并评估这些假设在当前条件下持有的容易程度(或难易程度)。假设越难,用处越小,参考价值越低。b.鉴于这些假设,本文的主要好处是什么。C。这些好处主要表现在简化了哪些公式中的哪些项目。至于整篇论文的详细推导过程,大家可以不用去了解。除了三个或五个关键公式(应用中最终要使用的公式,你可以从这里评估这种方法的便利性或计算效率,以及这些公式在非理想情况下的可靠性或可靠性。Stability),其他公式不懂也没关系,公式之间恒等式的推导过程完全可以跳过。如果要看公式,重点是推导公式时引入的假设,而不是恒等式的变换。目的:全面梳理本学派的主要发展历程、主要假设、主要理论基础和主要成果。根据(问题D)的回答和这所学校的主要假设,进一步回答下一个问题:这所学校的主要缺点是什么。【我们团队目前认为这一点可能没有必要】最后根据(A)、(B)、(C)、(D)的答案得出:这个学校什么时候最适合使用,以及什么场合最不适合使用。只有把方法特征表和应用场合特征分析表放在一起,才能判断一种方法是否适用。4、看论文原则带着问题看论文,尽量只回答自己想回答的问题。选读一定要从粗到细,一层一层地逐步理解。上面计划的阅读论文的顺序是从厚到薄。每读完一轮,你的知识就会增加一个层次。基于这一层次的知识,你可以在下一层提出更详细的问题,然后根据这些更详细的问题重新阅读,就可以理解更多的内容。所以一定是整批阅读到一定程度,而不是一篇一篇的阅读整篇文章。第一轮阅读后,你可以根据第一轮获得的知识来判断哪些论文与你的主题不相关,如果不相关就不需要再读了。只有这样,才能从浩如烟海的论文中层层筛选出自己真正要理解的部分。不要阅读你不会使用的东西,必须尽量减少浪费精力!事实上,大多数论文只需要了解它的主要概念(这往往更容易),而不需要了解它的详细推导过程(这更耗时)。其次,整批一起读还有一个好处:同一个流派的概念有的作者解释起来比较容易,有的作者解释起来不清楚。整批浏览一遍后,可以规划一个你认为更容易理解的阅读顺序,而不是一头撞墙。您可以使用论文A来帮助您理解论文的一段。没有人说你只能靠A卷的信息来理解A卷。因此,整批阅读很像下跳棋。您必须为自己的阅读计划“最省力的路径”。5.方法的实践现在,假设我们在前面的方法的基础上留下了一个合适的文档,如何合理有效地分析它是我们即将面临的关键问题。为了方便起见,我们就以读过的《FSST: Fast Random Access String Compression》一文为例,动手实践一下彭明辉教授的实现方法,自我检讨和优化,以供参考。1.从摘要的相关性来看,摘要描述了全文的主要贡献、方法特点和主要内容:主要贡献:提出了一种称为“快速静态符号表”的轻量级字符串压缩方案。方法特点:对文本数据的压缩和解压速度与LZ4等方法相近或更好,压缩率更高。主要内容:支持随机访问单个压缩字符串,可以延迟解压和查询数据等。到目前为止,可能还无法确切知道“静态符号表”是什么意思,但其特征值足够高(LZ4以极快的压缩和解压速度着称),这是它的亮点,所以有足够的理由支持我们继续往下看。"Introduction的作用是介绍问题的背景和起源,说明前人在该课题上的主要贡献,阐明前人未解决的问题,以及本文在此背景下想解决的问题及其意义重要性。”Introduction这部分信息量大,是全文的一系列组织内容,所以要细化几遍present-strings经常被用作数据库中各种数据的通用表示类型。然后导致一个真正的问题——但是字符串的唯一性以及数据库中字符串通常只有一百或十个字节大小的事实,所以传统的字典压缩算法,依靠压缩多个完全重复的字符串来实现压缩,不能很好的发挥效用,需要字符串的输入大小需要几千字节以上才能满足,所以存在矛盾介于两者之间,以LZ4算法为例进行粗略的演示。其次,传统的按块排序的通用字符串压缩算法不能很好地满足数据库随机访问单个字符串属性的需要。此外,我们还会注意到,对于这样一个核心技术实现——AVX512SIMD,作者反复强调了措辞。如果你以前了解过它,你就会知道它是英特尔推出的新一代独特的加速指令集架构。这时候去搜索引擎查询详情比较合适。不难得到这样的信息:Intel平台独占,HPC流行,能耗比较高……由此可以初步推断,FSST可能不具备可观的通用性。至此,开头提到的选项大体上找到了答案补充,同时完成了判断相关性的目的,可以根据自己研究方向的需要,评定为“中等”水平。2.关注主体创新和优劣势》当你第一次系统地阅读某派论文的主体时,你只需要了解:这篇论文的主要假设是什么(在什么条件下是这样的)itvalid),并评估这些假设在现实条件下成立的难易程度。假设越难,用处越小,参考价值越低。在这些假设下,主要有哪些好处这篇论文的这些好处主要体现在简化了哪些公式和哪些项目。作者在讲解FSST的实现过程时,首先指出了一种数据类型“字符串”的特点:虽然每个单独的字符串可能很短,几乎没有冗余,但一列的字符串通常有共同的子串,如如下图URL类数据集所示:因此,FSST的创新之处在于它识别频繁出现的子字符串符号,并将其替换为短的、固定大小的代码。此外,符号表在解压缩期间保持静态,这意味着单个字符串的解压缩不必依赖于同一压缩块中的其他关联字符串;但是LZ4等算法在压缩和解压过程中会修改String内部状态。同时,在正文中,我们也会经常看到与上图相似的内容。其实这就是彭明辉教授所说的“身份转换”。把时间浪费在身份是如何推导出来的上是没有意义的。重要的是要关注公式推导过程中引入的假设,而不是恒等式的转换。后续文章相关内容请参考【ELT.ZIP】OpenHarmony吃纸俱乐部-快速随机存取字符串压缩。3、总结问题、技术、场景这里的方法和应用场合特点表,对应的是我们社团经常强调的问题、技术、场景。问题描述了对象在什么结构和层次上的不足或缺陷,使其无法适应当前的需求;为满足这种需求而产生的技术,有其独特的优势;场景,什么时候,什么情况下会产生这个需求,需求是大是小,技术方案需求量的大小决定了论文的含金量。结合以上不难分析出本文的问题是现有的压缩算法不能很好的压缩字符串,技术是FSST快速静态符号表方案,场景是数据库系统、信息检索、网络云存储、文本分析等方法没有好坏之分,只有相对优缺点;只有当方法的特点与应用的特点不一致时,才能断定该方法“不适用”;结论是这个方法“适用”。因此,只有将方法特征表和应用场合特征分析表放在一起,才能判断一种方法是否适用。更有意义的是,这样的过程将突破瓶颈所需的创意简化为有迹可循的作品,将无情的科研变成了轻松愉快的奋斗日记。了解更多开源知识,请访问:开源基础软件社区https://ost.51cto.com。您可以点击下方链接下载文章相关附件:https://ost.51cto.com/resource/2243。了解更多开源知识,请访问:开源基础软件社区https://ost.51cto.com。
