说说你的研究思路,推荐合适的数据集:当然你也可以按需搜索,同时标注不同数据集的热度:更重要的是,它可以直接为您分析数据集。我可以告诉你语料库里有没有仇恨言论、性别歧视语料库等等,比例是多少。以上就是一个通用的数据处理平台DataLab。包含1715个数据集,提供数据诊断、数据搜索、全局分析和标准化处理四大功能。它不仅可以帮助用户分析数据的特征,还可以标准化不同的数据集。幕后主创之一是卡内基梅隆大学博士后、复旦大学博士毕业的刘鹏飞。方便、方便还是方便其实对于很多人来说,建立模型往往会卡在数据集阶段。网上虽然有很多数据集,但是质量参差不齐。而且,很多新来的童鞋对于应该使用什么样的数据集也很迷茫。那么,一个涵盖广泛的数据集并且可以分析的平台可能会帮助你找到你喜欢的数据集。基于这样的背景,刘鹏飞的团队成立了DataLab。以查找数据集为例。在DataLab上,你不仅可以根据模型的需要筛选出合适的数据集,还可以看到哪些数据集最受欢迎,哪些下载量最多,哪些访问量最多。毕竟“人人都说好就是真的好”,这句话也用在哪里都有用。现在让我们看看标准化。DataLab提供了86个函数,可以将不同的数据集标准化为统一的格式。如果您在构建模型时不知道使用什么数据集,也可以直接询问DataLab。例如,当你输入一个研究思路:我想训练一个模型,可以识别啤酒评论中包含的正面和负面情绪。DataLab可以提供20个数据集供你选择,每个点都会有更详细的介绍。DataLab除了提供数据集分析处理功能外,还可以为你提供一些基于已有数据的全局视角分析。比如可以展示全球不同国家AI定位技术的积累。其开发者刘鹏飞表示,数据,尤其是标注数据,是训练人工智能系统的关键。所以在很多时候,数据集的积累可以体现出技术壁垒。从DataLab上的大数据分析可以看出,美国在语言数据集上有着巨大的优势,因为现有的很多公开流行的数据集都是以英文为主。相比之下,中国数据集的积累还不够好。同时,该平台还可以对全球不同研究机构在不同任务数据集上的表现进行排名。从下表可以看出,CMU、微软亚洲研究院、JHU、UW位列前四,清华大学在国内排名最高。但平台开发者也提醒大家,由于用户提交的数据不完整,平台统计的数据可能存在不准确/不周详的情况,仅作为参考之一。用户也可以在DataLab官网进行数据修正。复旦校友牵头创建DataLab,由卡内基梅隆大学语言技术研究所(LTI)博士后刘鹏飞领衔。刘鹏飞获得博士学位。2019年毕业于复旦大学计算机系,师从邱锡鹏教授、黄选景教授。研究兴趣包括NLP模型可解释性、迁移学习、任务学习等。博士期间获得计算机领域各种奖学金,包括IBM博士。奖学金、微软学者奖学金、腾讯人工智能奖学金、百度奖学金。谈到搭建DataLab平台的初衷,刘鹏飞对量子表示:机器学习领域有太多技术需要标准化统一,技术需要折叠,否则会造成资源浪费资源。他提到,加州大学伯克利分校的明星实验室RISELab创造了很多新颖的技术工具,比如高性能分布式执行框架Ray。其掌舵人IonStoica教授在分享中提到“统一是他们成功的关键”。DataLab这次的工作也是如此。它的意义在于提供一个“数据+操作”的统一框架,让未来的很多事情可以转化为两件事:定义/引入一种新的数据类型;定义/引入一个新的数据操作(比如现在很火的PromptLearning,本质上是重构数据)。这样一来,研究人员和开发人员可以有一个统一的入口来进行他们需要的各种数据分析和操作。在DataLab中,对不同的数据类型和操作类型进行了标准化。目的是让用户不再把时间浪费在前人已经解决的事情上,而是利用已有的技术探索新的技术发展。当然,如果再深入一点,刘鹏飞表示,DataLab的创立也源于一种内在的驱动力:如何让自己所做的事情对推动人类社会生产力的发展起到重要作用。其实,刘鹏飞并不是第一次为开发者和研究者打造方便的“小工具”。例如,ExplainaBoard是一个辅助工具,可以帮助开发者提出创新的学术想法。还有一个Demo网站ReviewAdvisor,可以自动生成论文评审结果。只需要上传PDF论文,自动生成审稿结果。哦对了,刘鹏飞也会在知乎上分享他在NLP方面的一些研究心得。比如这篇《近代自然语言处理技术发展的“第四范式”》的文章在网上引起了不小的轰动。感兴趣的童鞋,欢迎移步知乎观看~DataLab地址:http://datalab.nlpedia.ai/GitHub地址:https://github.com/ExpressAI/DataLab/刘鹏飞知乎:https://www.zhihu.com/people/liu-peng-fei-65-23/posts
