简介数据科学(机器学习)项目为你提供了一个有前途的方式来启动你在该领域的职业生涯。您不仅可以通过应用来学习数据科学,还可以在自己的简历上展示一些项目!今天,招聘人员通过他/她的工作来评估候选人的潜力,而不是关注证书。如果您没有什么要告诉他们的,那也没关系!这是大多数人挣扎和错过的地方。您之前可能已经处理过一些问题,但如果您不能使它表现得如此良好和可解释,那么到底怎么会有人知道您的能力呢?这些项目会帮助你。考虑一下您将在这些项目上花费的时间,例如培训课程。您练习的时间越多,您的成绩就会越好!我们确保为您提供不同领域的各种问题。我们认为每个人都必须学会如何熟练地处理大量数据,所以这包括大数据集。此外,我们确保所有数据集都是开放的并且可以免费访问。有用信息为了帮助您决定从哪里开始,我们将此列表分为3个级别,即:初学者:此级别包含相当容易使用且不需要复杂数据科学技术的数据集。您可以使用基本的回归或分类算法来解决它们。此外,有足够多的关于这些数据集的开放教程可以帮助您入门。中级:此级别包含本质上更具挑战性的数据集。它由中型和大型数据集组成,需要一些严格的模式识别技能。此外,特征工程将在这里有所作为。机器学习技术的使用没有限制;阳光下的任何东西都可以使用。高级:这个级别最适合了解高级主题的人,例如神经网络、深度学习、推荐系统等。这里还提供高维数据集。另外,现在是发挥创意的时候了。了解最优秀的数据科学家为他们的工作和代码带来的创造力。目录JuniorIris数据贷款预测数据Bigmart销售数据波士顿房屋数据时间序列分析数据葡萄酒质量数据Turkiye学生评价数据身高体重数据中级黑色星期五数据人类活动识别数据暹罗赛车数据旅行记录数据百万歌曲数据人口普查收入数据电影拍摄数据Twitter分类数据AdvancedRecognitionYourNumbersCitySoundClassificationVoxCelebrityProfilesImageNetDataChicagoCrimeDataIndianActorDataAgeDetectionRecommendationEngineDataVisualQADataElementary1.IrisDataset这可能是最通用、最简单和资源最丰富的数据集。没有什么比在鸢尾花数据集上学习分类技术更简单的了。如果您是一名全新的数据科学专业学生,这将是您的起点。数据只有150行和4列。问题:根据可用属性预测花的类别。入门:获取数据:https://archive.ics.uci.edu/ml/datasets/鸢尾花教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r来看看鸢尾花数据,并在下面的“实时编码”窗口中构建逻辑回归模型。https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills2.贷款预测数据集在所有行业中,保险领域是分析和数据科学方法使用最多的行业之一。该数据集允许您根据保险公司的数据集进行操作,了解那里面临的挑战、使用的策略、影响结果的变量等等。这是一个分类问题。数据有615行和13列。问题:预测贷款是否会被批准。开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/让我们看看贷款数据,并在下面的“实时编码”窗口中构建逻辑回归模型。https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills3.BigmartSalesDataset零售业是另一个广泛使用分析来优化业务流程的行业。可以使用数据科学技术巧妙地处理产品放置、库存管理、定制报价、产品捆绑等任务。顾名思义,这个数据包含了卖店的交易记录。这是一个回归问题。数据有8523行和12个变量。问题:预测商店销售额。开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/让我们看一下BigMart的销售数据,并在下面的“实时编码”窗口中构建一个线性回归模型。https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills4.TheBostonHousingDataset这是模式识别文献中另一个流行的数据集。数据集来自美国波士顿的房地产行业。这是一个回归问题。数据有506行和14列。因此,这是一个相当小的数据集,您可以在其中尝试任何技术,而不必担心笔记本电脑的内存被过度使用。问题:预测自住房屋的中值。开始:获取数据:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-学习-ms-excel-xl-miner/5。时间序列分析数据集时间序列是数据科学中最常用的技术之一。它有广泛的应用——天气预报、销售预测、逐年趋势分析等。这个数据集是特定于时间序列的,这里的挑战是预测一种交通方式的交通量。数据有行和列。问题:用一种新的交通方式预测交通量。入门:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about6.葡萄酒质量数据集这是数据科学初学者中最受欢迎的数据集之一。它分为2个数据集。您可以对此数据执行回归和分类任务。它将测试你对不同领域的理解——异常检测、特征选择和不平衡数据。此数据集中有4898行和12列。问题:预测葡萄酒的质量。入门:获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf7。TurkiyeStudentEvaluationDataset该数据集基于学生为不同课程填写的评估表。它具有不同的属性,包括出勤率、难度、每个评估问题的分数等。这是一个无监督学习问题。该数据集有5820行和33列。问题:使用分类和聚类技术来处理数据。开始:获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf8.身高体重数据集这是一个相当简单的问题,非常适合刚接触数据科学的人。这是一个回归问题。该数据集有25,000行和3列(索引、身高和体重)。问题:预测一个人的身高或体重。入门:获取数据:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html中级1。黑色星期五数据集此数据集包含在零售店捕获的销售交易。这是一个经典的数据集,用于探索和扩展您的特殊工程技能以及从多种购物体验中获得的日常理解。这是一个回归问题。该数据集有550,069行和12列。问题:预测购买金额。开始:获取数据:https://datahack.analyticsvidhya.com/contest/black-friday/教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/59862.HumanActivityRecognitionDataset该数据集是从30个人的记录中收集的,这些记录是由带有嵌入式智能惯性传感器的智能手机捕获的。许多机器学习课程将这些数据用于教学目的。现在轮到你。这是一个多分类问题。该数据集有10,299行和561列。问题:预测人类活动类别。入门:获取数据:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html3。TextMiningDataset该数据集最初来自于2007年举行的SiameseWordMiningCompetition。该数据包括航空安全报告,描述了某些航班发生的问题。这是一个多类高维问题。它有21,519行和30,438列。问题:根据标签对文档进行分类。开始:获取数据:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf4.JourneyHistoryDataset这个数据集来自美国的一个自行车共享服务。此数据集需要您锻炼专业的数据处理技能。该数据从2010年第四季度开始每季度提供一次。每个文件有7列。这是一个分类问题。问题:预测用户类别。开始:获取数据:https://www.capitalbikeshare.com/trip-history-data教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/5.MillionSongsDataset你知道数据科学也可以用在娱乐行业吗?自己做!该数据集呈现回归任务。它由5,15,345个观察值和90个变量组成。然而,这只是大约一百万首歌曲的原始数据数据库的一小部分。问题:预测歌曲的发行年份。入门:获取数据:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf6.人口普查收入数据集这是一个不平衡的分类,一个经典的机器学习问题。要知道,机器学习已经被广泛用于解决不平衡问题,比如癌症检测、欺诈检测等,现在是时候自己动手了。该数据集有48,842行和14列。问题:预测美国人口的收入等级。开始:获取数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf7。MovieShotsDataset您是否构建了推荐系统?这是你的机会!该数据集是数据科学行业中最受欢迎和引用最多的数据集之一。它有各种尺寸。在这里,我使用了相当小的尺寸。它拥有来自4000部电影的6000名用户的100万评分。问题:向用户推荐新电影。入门:获取数据:http://grouplens.org/datasets/movielens/1m/教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/8.TwitterClassificationDataset使用Twitter数据已成为情感分析问题的一个组成部分。如果你想在这个领域为自己开辟一个利基市场,你会喜欢接受这个数据集带来的挑战。数据集大小为3MB,包含31,962条推文。问题:识别什么是仇恨推文,什么不是仇恨推文。入门:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/教程:https://github.com/abdulfatir/twitter-sentiment-analysis高级1.确定您的数字数据集此数据集允许您研究、分析和识别图像中的元素。这就是相机如何使用图像识别来检测你的脸!现在轮到您构建和测试该技术了。这是一个数字识别问题。该数据集包含7,000张28X28大小的图像,总计31MB。问题:识别图像中的数字。入门:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-到-implementing-neural-networks-using-tensorflow/2。城市声音分类当你开始你的机器学习之旅时,你会遇到简单的机器学习问题,比如泰坦尼克号生存预测。但是,对于现实生活中的问题,您仍然没有足够的练习。因此,本练习题旨在向您介绍一般分类情况下的音频处理。该数据集包含10个类别的8,732种城市声音的人声摘录。问题:对音频中的声音类型进行分类。入门:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-处理-深度学习/3。VoxCelebrityDataset音频处理正在迅速成为深度学习的重要领域,因此这是另一个具有挑战性的问题。该数据集用于大规模说话人识别,包含从YouTube视频中提取的名人所说的话。这是一个用于分离和识别语音的有趣用例。该数据包含1,251名名人的100,000篇演讲。问题:找出声音属于哪个名人。入门:获取数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf4。ImageNet数据集ImageNet提供了各种问题,包括对象检测、定位、分类和屏幕解析。所有图像均可免费获得。您可以搜索任何类型的图像并围绕该图像构建项目。截至目前,图像引擎拥有超过1500万张各种形状的图像,大小高达140GB。问题:要解决的问题取决于您下载的图像类型。入门:获取数据:http://image-net.org/download-imageurls教程:http://image-net.org/download-imageurls5.芝加哥犯罪数据集每个数据科学家都希望能够处理大数据这几天定了。当公司拥有整个数据集的计算能力时,他们不再喜欢使用样本。该数据集为您提供了在本地计算机上处??理大型数据集所需的实践经验。问题很简单,但数据管理是关键!该数据集有600万个观察值。这是一个多分类问题。问题:预测犯罪类型。入门:获取数据:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf6。印度演员年龄数据对于任何深度学习爱好者来说,这都是一个令人着迷的挑战。该数据集包含数千张印度演员的图像,您的任务是确定他们的年龄。所有图像都是从视频帧中手动选择和裁剪的,这导致了比例、姿势、表情、年龄、分辨率、遮挡和妆容的高度可变性。训练集中有19,906张图像,测试集中有6,636张图像。问题:预测演员的年龄。入门:获取数据:http://image-net.org/download-imageurls教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-年龄检测实践问题/7。推荐引擎数据集这是一个高级推荐系统挑战。在此练习题中,您将获得有关程序员和他们以前解决过的问题的数据,以及他们解决该特定问题所花费的时间。作为一名数据科学家,您构建的模型将帮助在线评委决定下一级问题并推荐给用户。问题:根据用户的当前状态,预测解决问题需要多长时间。开始:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/8。VisualQA数据集VisualQA是一个包含关于图像的开放式问题的数据集。这些问题需要了解计算机视觉和语言。这个问题有一个自动评估指标。该数据集包含265,016张图像,每张图像有3个问题,每个问题有10个真实答案。问题:使用深度学习技术回答有关图像的开放式问题。入门:获取数据:http://www.visualqa.org/教程:https://arxiv.org/abs/1708.02711Endnotes在上面列出的24个数据集中,您应该首先找到一个与您的技能集匹配的数据集。如果您是机器学习的初学者,请避免从一开始就使用高级数据集。不要贪多嚼不烂,也不要为仍然要做的事情感到不知所措。相反,专注于取得渐进的进步。完成2-3个项目后,在您的简历和GitHub个人资料中展示它们(非常重要!)。如今,许多招聘人员通过查看GitHub个人资料来招聘候选人。你的动机不应该是完成所有项目,而是根据要解决的问题、领域和数据集大小来挑选一些项目。
