当前位置: 首页 > 科技观察

数据分析一定要掌握数据库和sql的基础知识!收藏

时间:2023-03-19 21:05:26 科技观察

在数据分析面试中,有一类知识是面试官重点关注的,但很多人往往会忽略它,那就是——数据库和SQL!什么是数据库?可以把数据看成是文件夹,数据库就是一个文件柜,这个文件柜里面存放了很多数据,不管数据是什么,不管数据是怎么组织的这里需要注意的是,人们通常用数据库这个词来表示代表他们使用的数据库软件,这是不正确的,这是您混淆的根源。准确的说,数据库软件应该叫DBMS,即数据库管理系统。数据库由DBMS创建和操作。比如我们可以在sqlsever中创建一个数据库,也就是DBMS就像图书管理员一样,你不直接访问数据库,而是使用DBMS访问数据库,让图书管理员帮你找文件柜.数据库的分类?这里所说的数据库是指数据库管理系统。根据早期的数据库理论,流行的数据库模型有层次数据库、网络数据库和关系数据库三种。在当今的互联网公司中,最常用的数据库模式主要有两种,即关系型数据库和非关系型数据库。关系数据库模型将复杂的数据结构归结为简单的二元关系(即二维表的形式)。在关系型数据库中,几乎所有的数据操作都是基于一张或多张关系表。排序、合并、连接或选择表等操作用于管理数据。关系型通俗的理解就是数据是以二维数组的形式存在的,可以理解为图书馆里书籍的排列。书架和地板可以理解为关系数据结构,书籍作为数据存在,所有的图书管理员都是不同任务的数据库进程。有人灭火(资料修复、备份),有人整理书架和书籍(资料整理、归档)。用户进程是指来图书馆的客户。他们阅读和移动书籍,管理员将维护它们。关系数据库诞生至今已有40多年。从理论的产生到开发再到产品的实现,如:常见的MySQL和Oracle数据库,Oracle已经上升到数据库领域的霸主地位,形成了一个每年数百亿美元的庞大产业。市场,而MySQL也是一个不容忽视的数据库,以至于被甲骨文斥巨资收购。非关系数据库也称为NoSQL数据库。NoSQL的本意是“NotOnlySQL”,指的是非关系型数据库,并不是“NOSQL”。所以,NoSQL的出现并不是要完全否定关系数据库。相反,它作为传统数据库的有效补充,在特定场景下可以发挥超乎想象的高效率和高性能。NoSQL是对非关系数据库的广义定义,它打破了关系数据库和ACID理论长期以来的统一。NoSQL数据存储不需要固定的表结构,通常也没有连续运行。在大数据访问方面具有关系型数据库无可比拟的性能优势。SQL存储数据那么,作为关系型数据库中最常见的SQL,它是如何存储数据的呢?1.桌子:当你把文件夹放在文件柜里时,你不能把它们扔进抽屉里就完事了,而是在文件柜中创建一个文件,然后将相关信息放入相关文件中,也就是数据库的表。表是用于存储某种类型数据的结构化文件。比如这样一个sql文件,包含了20多张数据库表。每个表的名称不应该相同,但是我们可以将具有相同表名的数据表存储在不同的数据库中。同时,我们不能把学生数据和教师数据放在同一张表中,这样我们提取数据会比较困难,检索和访问也会比较麻烦,所以我们应该创建两张表,一张表用于每个列表。2.Column:Column是组成表格的字段信息。一个表可以包含一列或多列。我们可以理解为每一列就是数据库表中的每一个字段。比如下面的学生id列,学生姓名列,考试成绩列就是三个字段。将数据正确分解为多列非常重要。例如,班级和学生姓名应该是独立的列。通过分解它们,可以使用特定的队列数据进行排序和过滤。如果学生姓名和班级都集中在一列中,按班级筛选将非常困难。数据库中的每一列都有对应的数据类型,数据类型定义了该列可以存储的数据类型。例如,如果列存储数字,则对应的数据类型应该是数字类型;如果该列存储日期、文本、评论、金额等,则应使用适当的数据类型指定。数据类型:允许的数据类型,每一列都应该有对应的数据类型,并限制存储的数据形式。3.行:数据库表中的数据是按照行存储的,每一行是存储的一条数据,比如第一行是张三的数据,第二行是李四的数据。4、主键:表中的每一行都应该有一个能唯一标识自己的列。比如在学生信息表中,我们不能用学生的名字作为主键,因为我们会发现一旦出现相同的名字,就会有两个不同的,当然我们也不能用考试成绩作为主键.比如我们抽取“90分”作为主键时,我们会抽取两条数据;所以我们应该使用学号作为主键,因为学号无论如何都不会重复。是的,它是唯一的,所以它可以用作主键。所以主键是区分数据表行的唯一标识符,用来表示特定的行。如果没有主键,我们将很难更新或删除表中的特定行。它必须满足两个条件:任意两行不应该有相同的主键值。每一行必须有一个主键值(主键列没有空值)在数据库中,可以关联不同的表,依赖主键,比如下面两张表:比如上面两张图,左图是学生信息表,右图是教师信息表。左边的主键是学号,右边的主键是教师号。细心的读者可能会发现,右图中还有一张学生证。这里的学号是专门用来加入user表的,不是主键。只是两张表是通过学号唯一信息关联起来的。但是两个表之间的关联并不是信息的一一对应,是会有空隙的,比如:所以,我们要想知道数据库的内容,首先要了解sql,sqlserver,mysql、oricle和database,数据库管理系统有什么区别,因为很多人在学习数据分析的时候,都是在网上到处找资料,而这些术语在不同的资料中被滥用,造成大家的困惑,增加大家对SQL的理解。困难。