当前位置: 首页 > 科技观察

为什么SQL知识对数据科学家来说必不可少?_0

时间:2023-03-12 05:06:04 科技观察

译者|李睿审稿人|孙淑娟SQL最早可以追溯到1970年代EdgarCodd博士、DonaldChamberlin、RaymondBoyce等IBM研究人员建立的早期关系数据库。关系数据库中一个表中的数据可以链接到数据库数千甚至数百万条目中的任何一个条目中的数据。因此,SQL使搜索和检索业务相关问题的数据并在报告中显示结果变得比以往任何时候都更容易和更快。SQL究竟是什么?SQL是关系型数据库(传统数据库以表格形式存储数据库)的一种查询语言。它使用关系模型的功能来提供数据属性或属性,例如货币单位、数字、日期或指定值。这是一种典型的SQL格式,它包含表、列、字段和行:与电子表格类似,数据库表由行和列组成。每列显示该记录中的一个字段,每行代表一条记录。为保证每个字段的数据符合数据库的标准,可以为表和表中的每一列提供属性。这里有一些统计数据可以说明SQL的流行程度以及财富500强公司如此依赖它的原因。近58.2%的数据科学家工作需要SQL技能(Indeed.com)。数据科学家更喜欢SQL而不是R和Python,其中超过65%的人使用SQL(StackOverFlow调查2020)。Microsoft、NTTData、Accenture、Dell和Cognizant都是使用SQL分析数据的顶级公司。MySQL被评为2022年第二受欢迎的数据库管理系统(Statista)。为什么SQL知识对数据科学家来说必不可少?数据科学家列出了SQL的一些主要优势。语言:易于理解和使用,依赖于术语和简单的结构。与Python、R和其他编程语言兼容,使数据科学家能够交流和展示他们的发现,为数据科学家提供检查他们的数据集的工具,从而帮助他们更好地理解它们。容纳数据分析师和科学家必须处理的海量数据。例如,关系数据库比电子表格强大得多。对于大多数寻找数据科学家和数据科学专业人士的招聘人员来说,这种语言的熟练程度高于其他编程语言。最常用的SQL命令有哪些?为了开发和修改数据库表、定义用户权限和执行其他活动,SQL命令用于与数据库交互。有五个基本的SQL命令:1.数据定义语言(DDL)数据定义语言(DDL)指令用于通过创建、删除或更改表中包含的数据来更改表的结构。命令自动保存在数据库中或“自动提交”。(1)创建(CREATE)这个命令通过提供表名、列名、大小和属性来创建一个新表。(2)更改(ALTER)该命令主要用于向数据库模式添加新功能或更改现有功能。从表中删除当前列、更改列或减小列的大小都是可能使用的示例。(3)删除表(DROP)该命令用于删除一个表,包括它的所有数据。(4)重命名(RENAME)这个命令为现有的表提供一个新的名称。一个理想的数据定义语言(DDL)应该:给每个记录类型、数据项类型、数据库、文件类型和其他数据细分一个唯一的名称。区分数据的多个分区,例如数据项、段、记录和数据库文件。解释不同的记录类别如何与不同的品牌结构相关联。能够指定数据元素的长度。2.数据操作语言(DML)使用数据操作语言(DML)指令修改数据库。由于数据操作语言(DML)命令不会像数据定义语言(DDL)那样自动提交,因此可以撤消这些操作。(1)插入(INSERT)通过给出表名和与新信息相关的值,如年龄、地址和姓名,该命令用于向表行中插入数据。同样,它可用于使用其他来源的数据填充表格。(2)删除(DELETE)这个命令从表中删除一行或多行。例如,简单地指定一个表名将删除它的所有行;但是,添加WHEREName="MIKE"等条件只会删除符合要求的行。(3)更新(UPDATE)该命令改变一个表字段的值并将其应用于所有行或仅应用于满足条件的行,例如包含特定州代码或邮政编码的行。数据操作语言(DML)仅仅意味着:检索、插入、删除和修改存储在数据库中的信息。3.事务控制语言(TCL)为了管理数据库,事务控制语言(TCL)命令与数据操作语言(DML)命令一起使用。但是,事务控制语言(TCL)命令不能用于创建或删除表,因为它们是在数据库中自动提交的。(1)提交(COMMIT)该命令保存所有数据库事务,终止当前事务,并将事务期间执行的所有更改标记为不可逆。它还释放表持有的任何事务锁。(2)回滚(ROLLBACK)该命令将通过终止事务并清除事务期间所做的所有修改来清除所有尚未保存到数据库中的事务。它还释放在表上获取的任何事务锁。(3)保存点(SAVEPOINT)使用该命令将数据库回滚到之前构建的保存点。以这种方式只能保留交易的某些方面。自上次提交或回滚命令以来,必须给出一个保存点。4.数据控制语言(DCL)数据控制语言(DCL)命令控制谁可以访问数据库中的数据。这些说明根据用户访问权限允许或拒绝某些用户的访问。(1)授予(GRANT)该命令授予用户访问权并指定允许用户执行的任务,例如选择和更改表的能力以及授予其他用户访问权。(2)撤销(REVOKE)该命令删除用户的访问权限。任何有能力向他人提供访问权限的人都可以使用它,即使授予者不是表的创建者。5.数据查询语言(DQL)数据查询语言(DQL)命令从数据库中获取数据,符合SELECT命令语法的要求。(1)选择(SELECT)这是唯一可用的DQL命令,适用于所有的检索活动。通过定义表名,语法指示在何处查找给定数据。WHERE语句指定目标数据必须具有哪些品质或特征,例如“WHEREage>65”。SQL数据类型有哪些?生成查询时,选择合适的SQL数据类型是创建格式良好的查询的第一步。可以放入表列的值的类型由数据类型定义,其中一些是:(1)SQL日期和时间数据类型DATE:以YYYY-MM-DD格式缓存的日期。TIME:以HH:MI:SS形式缓存的时间。(2)SQL二进制数据类型BINARY:定长,最多8000个字符。VARBINARY:可变长度,最多8,000个字符。(3)SQLCHARforcharactersandstrings:固定长度的字符,最多8000个字符。VARCHAR:最多8,000个可变长度字符。VARCHAR(max):可变长度存储使用“max”选项创建最大为231-1字节的列约束大小,或定义字符串大小(以字节为单位,值为1到8000)。(2GB)数据科学专业人士精通SQL具有SQL技能的数据科学家和软件开发人员有更多的工作选择。SQL知识对各种专业角色都很有用,例如:SQL数据库开发人员SQL数据库管理员SQL数据分析师云数据库专家商业智能管理员结论数据的使用只会增加。所以从长远来看,学习SQL对业务会有很大的帮助。学习SQL是数据科学家和数据库专业人员为职业生涯做准备的最佳方式。数据库系统不仅是寻找数据专家的企业中最抢手的人才之一,而且还是学习其他有用IT技能的基石。SQL知识是数据研究和软件开发中许多有利可图职位的基石。原标题:为什么SQL知识对数据科学家至关重要?先睹为快,作者:AnamikaSingh