全站年SVIP
全站1000+试题无限查看
一、了解阿里云ACA认证
1、数加是指阿里云大数据平台,包含了一系列的大数据产品及服务。计算引擎(三类):离线计算、流式计算、在线计算。
2、MaxCompute:由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。
3、MaxCompute特点:分布式(分布式集群架构)、安全性(自动存储容错)、易用性(标准接口服务)、管理与授权(多用户的管理协同)。
4、MaxCompute对象:Project 项目空间,所有对象都隶属于项目空间,计量计费及安全控制的基本单元
5、Table 表:所有的数据都存储在表露,支持表分区,支持依赖于表的视图
6:Partition 分区: 上传时,手工创建分区并保证质量, 使用insert数据时支持动态分区
7、其它概念
Ø7.1Task 任务: MaxCompute基本计算单元,SQL及MR都是通过任务完成的
Ø7.2Instance 实例: 任务的一个具体实例,表示实际运行的task
Ø7.3Sandbox 沙箱:按照安全策略限制程序行为的执行环境
分区表指的是在创建表时指定分区键,即指定表内的某几个字段作为分区列。在使用数据时如果指定了需要访问的分区名称,则只会读取相应的分区,避免全表扫描,提高处理效率,降低费用MaxCompute数据类型:bigint、string、boolean、double、datetime、edecimal
二、学习阿里云ACA认证,MaxCompute架构:
2.1客户端:eclipse、clt、管理控制台(DMS)、dataide、intelij
2.2逻辑层:请求分为计算型和非计算型。如果是非计算型,则请求处理器处理后返回。如果是计算型。则交给调度器处理。但其实调度器也不是做真正的处理,而是以xml文件的形式交给计算层进行处理。
2.3计算层
Tunnel基本语法
1.tunnel或者tunnel help查看帮助信息
2.tunnel upload [options] <[project.]table[/partition]> 数据上传
tunnel upload d:\test\all.txt yunxiang_01.t_test_all
tunnel upload d:\test\all.txt yunxiang_01.t_test_p/gender=’male’
tunnel upload d:\test\all.txt yunxiang_01.t_test_all -dbr true; // 容忍错误
参数:
-dbr 错误记录处理,缺省值为false,即不能容忍任何错误记录
-dfp 日期类型的格式,缺省为:yyyyMMddHHmmss
-mbr 最大错误记录数,缺省值为1000
-rd 行分隔符
-fd 列分隔符
支持文件或目录(只一级目录)的上传
每一次上传只支持数据上传到一个表或表的一个分区
有分区的表一定要指定上传的分区
3.tunnel download 数据下载
tunnel download [options] <[project.]table[/partition]>
tunnel download yunxiang_01.t_test_all d:\test\all.txt
tunnel download test_project.test_table/p1=”b1”,p2=”b2” log.txt
只支持下载到单个文件
每一次下载只支持一个表或者一个分区
有分区的表一定要指定下载的分区
2.4.分隔符
支持多个字符的列分隔符和行分隔符
支持控制字符等不可见字符做分隔符
列分隔符不能包含行分隔符
转义字符分隔符,在命令行模式下只支持\r,\n和\t
tunnel upload d:\p.txt t_test_p/gender=’male’ -fd “||” -rd “\r\n”
tunnel download t_test_p/gender=’male’ d:\p_download.txt -fd “||||” -rd “&&”
tunnel upload d:\p.txt t_test_p/gender=’male’ -fd “\b” -rd “\t” (错误,因为不支持\b)
fd 列分隔符 rd 行分隔符
DDL:建表、删表、修改表明
三、阿里云ACA认证,表的生命周期:
MC表中的数据,从最后一次更新时间算起,在经过指定的时间后没有变动,则此表将被MC自动回收(删除)。此指定时间就是该表的生命周期。生命周期授权单位;days(天),只能指定正整数,生命周期只能指定表级的,不能指定分区级的
分区表和非分区表都可以指定生命周期,对于非分区表的生命周期,自最后一次数据被修改的时间开始计算,经过days天后数据仍未改动,则此表将会被自动回收,对于分区表的生命周期,则根据各个分区的最后一次数据被修改的时间判断该分区是否会被回收。即时所有分区都被删除,该表也不会被删除,依然存在若建表时不指定生命周期,则该表不会根据生命周期规则被MC自动回收.
阿里云ACA认证攻略
一、了解阿里云ACA认证
1、数加是指阿里云大数据平台,包含了一系列的大数据产品及服务。计算引擎(三类):离线计算、流式计算、在线计算。
2、MaxCompute:由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。
3、MaxCompute特点:分布式(分布式集群架构)、安全性(自动存储容错)、易用性(标准接口服务)、管理与授权(多用户的管理协同)。
4、MaxCompute对象:Project 项目空间,所有对象都隶属于项目空间,计量计费及安全控制的基本单元
5、Table 表:所有的数据都存储在表露,支持表分区,支持依赖于表的视图
6:Partition 分区: 上传时,手工创建分区并保证质量, 使用insert数据时支持动态分区
7、其它概念
Ø7.1Task 任务: MaxCompute基本计算单元,SQL及MR都是通过任务完成的
Ø7.2Instance 实例: 任务的一个具体实例,表示实际运行的task
Ø7.3Sandbox 沙箱:按照安全策略限制程序行为的执行环境
分区表指的是在创建表时指定分区键,即指定表内的某几个字段作为分区列。在使用数据时如果指定了需要访问的分区名称,则只会读取相应的分区,避免全表扫描,提高处理效率,降低费用MaxCompute数据类型:bigint、string、boolean、double、datetime、edecimal
二、学习阿里云ACA认证,MaxCompute架构:
2.1客户端:eclipse、clt、管理控制台(DMS)、dataide、intelij
2.2逻辑层:请求分为计算型和非计算型。如果是非计算型,则请求处理器处理后返回。如果是计算型。则交给调度器处理。但其实调度器也不是做真正的处理,而是以xml文件的形式交给计算层进行处理。
2.3计算层
Tunnel基本语法
1.tunnel或者tunnel help查看帮助信息
2.tunnel upload [options] <[project.]table[/partition]> 数据上传
tunnel upload d:\test\all.txt yunxiang_01.t_test_all
tunnel upload d:\test\all.txt yunxiang_01.t_test_p/gender=’male’
tunnel upload d:\test\all.txt yunxiang_01.t_test_all -dbr true; // 容忍错误
参数:
-dbr 错误记录处理,缺省值为false,即不能容忍任何错误记录
-dfp 日期类型的格式,缺省为:yyyyMMddHHmmss
-mbr 最大错误记录数,缺省值为1000
-rd 行分隔符
-fd 列分隔符
支持文件或目录(只一级目录)的上传
每一次上传只支持数据上传到一个表或表的一个分区
有分区的表一定要指定上传的分区
3.tunnel download 数据下载
tunnel download [options] <[project.]table[/partition]>
tunnel download yunxiang_01.t_test_all d:\test\all.txt
tunnel download test_project.test_table/p1=”b1”,p2=”b2” log.txt
只支持下载到单个文件
每一次下载只支持一个表或者一个分区
有分区的表一定要指定下载的分区
2.4.分隔符
支持多个字符的列分隔符和行分隔符
支持控制字符等不可见字符做分隔符
列分隔符不能包含行分隔符
转义字符分隔符,在命令行模式下只支持\r,\n和\t
tunnel upload d:\p.txt t_test_p/gender=’male’ -fd “||” -rd “\r\n”
tunnel download t_test_p/gender=’male’ d:\p_download.txt -fd “||||” -rd “&&”
tunnel upload d:\p.txt t_test_p/gender=’male’ -fd “\b” -rd “\t” (错误,因为不支持\b)
fd 列分隔符 rd 行分隔符
DDL:建表、删表、修改表明
三、阿里云ACA认证,表的生命周期:
MC表中的数据,从最后一次更新时间算起,在经过指定的时间后没有变动,则此表将被MC自动回收(删除)。此指定时间就是该表的生命周期。生命周期授权单位;days(天),只能指定正整数,生命周期只能指定表级的,不能指定分区级的
分区表和非分区表都可以指定生命周期,对于非分区表的生命周期,自最后一次数据被修改的时间开始计算,经过days天后数据仍未改动,则此表将会被自动回收,对于分区表的生命周期,则根据各个分区的最后一次数据被修改的时间判断该分区是否会被回收。即时所有分区都被删除,该表也不会被删除,依然存在若建表时不指定生命周期,则该表不会根据生命周期规则被MC自动回收.