课程体系

您所在的位置:首页>课程体系

大数据分析工程师

大数据分析工程师课程介绍

课程目标:

本课程是面向想从事于数据分析、数据处理领域的工程师,给予大数据平台对数据进行处理和预处理,利用python数据的处理能力和python高效率的模块对数据进行处理,学习本课程可以学习到大数据平台hadoop的工作原理,HDFS的存储机制,mapreduce的计算框架等知识,同时能获取python对数据的处理方法和计算方法能力,提高对数据的驾驭能力。

课程适用人群:

数据分析师,对数据感兴趣的人群,数据预处理工程师,爬虫工程师、从事数据业务的人群

授课方式:

面授,理论讲解、现场试验

python大数据分析工程师课程大纲

Linux系统管理

了解并使用基本命令工具
在shell下正确的命令语法
使用输入、输出、重定向
使用grep和正则表达式来分析文本
使用SSH和VNC的远程操控系统
用户登录及切换用户
使用tar、star、gzip、bzip2进行归档、压缩及解压
创建和编辑文本文件
创建,删除,复制,移动文件和目录
创建硬和软链接
查看,设置和修改权限
使用系统帮助
操作系统运行
正常开机,启动,关闭linux系统
使用不同模式启动系统
系统引导菜单
查看系统CPU、内存信息,调整进程优先级、杀死进程
查找并解析系统日志
访问虚拟机控制台
启动和停止虚拟机
启动,停止,并检查网络状态
系统间安全传输文件
配置本地存储
在MBR和GPT磁盘上查看、创建、删除分区
创建和删除物理卷,指定物理卷到卷组,创造删除逻辑卷
创建和配置加密分区,并配置解密文件系统
使用UUID配置文件系统
添加新的分区、逻辑卷、swap
创建和配置文件系统
使用VFAT、EXT4、XFS文件系统
挂载、卸载、使用加密文件系统
挂载、卸载CIFS和NFS网络文件系统
配置加密文件系统和网络文件系统的自启动
扩展未加密逻辑卷
创建和配置SGID
创建和管理访问控制列表
诊断文件权限问题
部署,配置,维护系统
配置静态或动态网络和主机名解析
使用计划任务at和cron
启动和停止服务并配置服务,开机时自动启动
按预定效果配置系统自启动
自动化安装RHEL
配置guests用户
使用guests用户安装RHEL
配置系统在开机启动虚拟机
配置系统使用时间服务
使用远程库或本地库进行软件更新
升级内核
修改系统引导程序
管理用户和组
创建,删除,修改本地用户帐户
修改密码,调整本地用户帐户的密码使用期限
创建,删除,修改本地组和组成员资格
配置系统使用一个现有的LDAP目录服务的用户和组信息
配置系统使用一个现有的认证服务的用户和组信息
安全管理
使用 system-config-firewall 或 iptables配置防火墙
为SSH配置公钥认证  
修改selinux模式
列出并确认SELinux文件和进程的上下文
恢复默认文件上下文
使用boolean修改系统SELinux设置
诊断和解决常规SELinux规则

Web前端部分

Html:
头标记的作用和使用
常用标签,标题和字体标签图像标签
列表标签设计
超链接标签设计
表格标记的设计
表单标记的设计
分桢框架的设计及应用
表单的应用
表格的应用
Div+css:
学习附加外部样式表,链接方式和导入方式
新建样式,类、标签,新建样式表文件
详解使用DIV+CSS 
布局和Web页面和网站布局的方法和流程
利用Dreamweaver 实现网站布局,总揽全局熟悉W3C标准熟悉不同浏览器(IE/Firefox)之间的差异,写出的代码能够有很好的兼容性
页面的属性、边距、链接、标题;设置等段落样式
设置段落的列表样式
建立链接的多种设置方法
链接四种状态的颜色与下划线设置
详细介绍DIV+CSS与TABLE之间的结合使用方法。通过对经典站点的详尽解析,了解不同类型网络媒体的设计需求和内部逻辑关系
学习网站拓扑的设计规则,从而能够针对不同的设计主题,完成任何类型网络媒体整体结构设计,得心应手

JavaScript 开发

JavaScript:
实现 包括: script标签 位置与外部的 JavaScript等
语句 包括:.innerHTML,.write()
注释
变量及数据类型 包括:动态类型,数组,布尔,JSON
函数 包括:2种函数定义方式与1种假对象定义方式(js无法真正实现面象对像所以为假对象
运算符 包括:算术运算符,数学运算符,比较运算符,逻辑运算符,条件运算符(三目运算符)
语法 包括:if...else,for,while,switch,try...catch
对象 包括:数字,字符串,日期,数组,逻辑,算数,正则表达式
window 包括:screen,location,history,navigator,popupalert,timing,cookies
DOM编程:
Document 对象
节点树
选取并读取节点
文档遍历以及增加节点
删除节点
元 素样式编辑
Window 对象
定时器
BOM 模型
事件
location 对象
history 对象
screen 对象
HTML DOM 编程
Jquery:
JQuery 概述
JQuery 选择器
JQuery HTML 操作
JQuery 事件
JQuery 特效
JQuery 常用 Plug-in
JQuery 扩展
京东首页交互实现
ajax:
Ajax简介,Ajax工作原理
Ajax开发框架,Ajax web应用模式
创建对象XMLHttpRequest() Date()对象 Open()方法
Ajax在开发中的应用 
Ajax 用户注册例子演示 节省用户操作,时间,提高用户体验
使用Ajax 传输获取数据 使用ajax获取某一文本文件的内容
AJAX交互式案例详解

python部分

Python开发Python程序开发基础指南:
Python环境安装Linux/Windows/MacOS
如何优雅的运行python代码
Python开发工具及运行环境
可视化ipython编程及数据呈现
数据类型及数据类型操作:
整形数和浮点数操作
字符串定义,应用场景及Bytes操作
元组和列表操作
字典与顺序字典、映射数据类型及转换
集合与frozenset
python代码组织与代码发布:
Python经典语句及应用经典
Python 库介绍及使用
Python模块创建及应用案例
大型程序程序模块组织及包封装
熟用import语句,加速二次开发及程序整合的进程
Python代码发布及开源贡献
面向对象编程及函数设计:
系统内置函数介绍、熟用系统内置函数
解决代码冗余及代码复用问题
函数定义及抽象设计
函数参数设计与参数详解
LEGB规则应用
函数闭包操作
函数高级特性及函数经典设计
面向对象编程:
让思想更加抽象,逻辑与数据分离
面向对象思想
python 类别与类型区分
class定义与抽象逻辑编写
类与方法设计,分割功能与程序模块化
满足业务能力的函数变形—装饰器
经典类与新式类的区分
异常捕获:
程序运行规则
异常捕获及处理方式
编写异常事件及警告
文件访问及数据处理:
访问不同类型文件
创建、读取、更新和删除文件使用正则表达式
Microsoft word、Excel和CSV数据操作及数据渲染
创建、删除目录,排列及文件搜索
python与echarts实现数据美颜可视化显示,让数据更加惊艳
访问数据库:
Python MySQL API操作
数据库增、删、改、查及批量操作
专注程序、抽象编写数据库驱动程序使用对象关系映射SQLAlchemy

Python操作NoSQL数据库
Python程序编程进阶:
多线程编程、多进程编程与队列应用
Python网络编程
Python GUI编程思路及PyQT图形化编程
Python获取互联网数据及WEB表单自动填充
Python XML与HTML处理
Python爬虫:
互联网资源获取
数据整理与清洗
表单自动化填写
Beautifulsoup实践
Python阶段实战:
利用模块快速组织应用编程
Python工具编程实践

django部分

djangodjango介绍及互联网应用
django入门讲解,django和Python安装,环境测试
数据库配置及开发服务器的设定
视图及URL的配置
正则表达式及URL
django如何处理请求
动态URL 的配置及调试
模板基础知识
使用模板系统及创建模板对象
模板渲染
模板标签及过滤器
模板加载
django模型
MVC及MTV开发模式
数据库设计及开发
DJango站点管理
后台管理
表单
从Request对象中获取数据
提交数据信息(GET 和POST)
表单验证(结合JAVAscript)
高级视图及URL的配置
使用多个视图前缀
高级模板知识
数据模型高级部分
通用视图
django部署
配置文件参数调试
实现404模板
APACHE与django
同一个APACHE运行多个django实例
django输出非html内容
生成CSV文件
生成pdf文件
会话、用户和注册
Cookies
Django session框架
Django缓存机制
内存缓冲、数据库缓冲
中间件
django国际化
django 安全
防止SQL注入
跨站点脚本(XSS)
防止伪造夸站点请求,回话劫持/伪造/邮件头注入/目录遍历

大数据分析部分

HADOOP技术体系培训数据平台的演进及趋势
大数据平台的必要性和数据发展趋势
Hadoop生态系统及周边软件开发与使用
Hadoop数据平台主要组件及架构
关于 Apache Hadoop
为什么是Hadoop?
Hadoop 的核心部件
基础概念
HDFS
HDFS 特性
读,写文件
NameNode内存的考虑
HDFS 安全性简介
使用 Namenode Web 用户界面
使用Hadoop 文件 Shell
YARN 和MapReduce
什么是 MapReduce?
MapReduce基本概念
YARN 集群的架构
资源分配
故障恢复
使用 YARN Web 用户界面
MapReduce 版本 1
为你的Hadoop 集群做计划
通用计划的考虑
选择正确的硬件
对网络的考虑
配置节点
为集群管理做计划
Hadoop 安装和初始配置
部署的类型
安装Hadoop
具体化Hadoop的配置
执行 HDFS 的初始配置
执行YARN 和 MapReduce 的初始配置
Hadoop 日志系统
安装配置Hive, Impala和 Pig
Hive
Impala
Pig
Hadoop 客户端
什么是Hadoop 客户端?
安装配置Hadoop 客户端
安装配置 Hue
Hue 授权和认证 集群的
Cloudera 管理器
Cloudera 管理器的动机
Cloudera 管理器的特性
快速版和企业版
Cloudera 管理器拓扑
安装Cloudera 管理器
用Cloudera 管理器安装hadoop
用Cloudera 管理器执行基本的管理任务
集群的高级配置
高级配置参数
配置Hadoop 端口
显性地添加或移除主机
配置HDFS 的机架认知
配置HDFS 高可用性
管理, 计划工作任务
管理正在运行的工作
计划Hadoop 工作
配置 FairScheduler
Impala 的查询计划
集群的维护
检查HDFS 状态
在不同集群间拷贝数据
添加和挪去集群的节点
重新平衡
集群的监控和故障诊断
通用系统监控
监控Hadoop 集群
常见的Hadoop Clusters
数据采集与ETL培训数据导入HDFS
用Flume将数据从外部源导入
用Sqoop将数据从关系数据库导入
REST 接口
输入数据的最佳实践
关系型数据迁移到大数平台
大数据安全培训Hadoop的安全方案
Hadoop的安全性的重要
Hadoop的安全系统的概念
Kerberos是什么,它如何工作
用Kerberos来守卫Hadoop集群
HBase(nosql数据库
HBase发展历史
HBase技术特点
HBase逻辑视图
表存储结构
Row key
Time Stamp
HBase物理存储
HTable
Store
HFile
HLog
HBase系统结构
逻辑部署物理部署
Zookeeper
Hbase关键流程/算法
读写流程
Region分配
Master上线/Master下线
HBase API
HBase实例
ETL工具PIG
什么是 Pig?
Pig的特性
Pig使用案例
和Pig交互
Pig Latin 语法
数据装载
简单数据类型
Field 定义
数据输出
表结构视图
数据过滤和排序
常用功能
实验: 用Pig 执行ETL流程
存储格式
复杂/Nested嵌套的数据类型
处理复杂数据的内置功能
迭代成群数据
storm实时数据处理ØStorm实时分析平台的源起,Storm分布式集群实施
Storm概念详解和工作原理,topology、spout、bolt的细节和API讲解
Grouping策略,并行度,消息的可靠处理机制分布式RPC:Storm的DRPC介绍
Storm高级原语Trident
Storm与Java以外的开发语言整合
Storm on Yarn,与hadoop数据分析平台整合
Storm实时数据分析应用案例

金源在线客服

QQ在线咨询

咨询电话
010-83650488

在线咨询

在线咨询

电话咨询