大数据学习之路

码农天地 - 2020-09-26 08:49:09

大数据简介一、基本定义一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征二、基本特征容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息；
种类（Variety）：数据类型的多样性；
速度（Velocity）：指获得数据的速度；
可变性（Variability）：妨碍了处理和有效地管理数据的过程。
真实性（Veracity）：数据的质量。
复杂性（Complexity）：数据量巨大，来源多渠道。
价值（value）：合理运用大数据，以低成本创造高价值。三、基础业务主要解决，海量数据的存储和海量数据的分析计算问题四、应用场景物流仓储：大数据分析系统助力商家精细化运营、提升销量、节约成本。
零售：分析用户的消费习惯，为用户购买商品提供方便，从而提升商品销量。
旅游： 深度结合大数据能力与旅游行业需求，共建旅游产业智慧管理、智慧服务和智慧营销的未来。
商品广告推荐：给用户推荐可能喜欢的商品。
保险： 海量数据挖掘及风险预测，助力保险行业精准营销，提升精细化定价能力。
金融：多维度提现用户特征，帮助金融机构推荐优质客户，防范欺诈风险。
房产：大数据全面助力房地产行业，打造精准投资与营销，选出更合适的地，建造更合适的楼，卖给更合适的人。
人工智能：无人驾驶汽车，机器人，无飞机等五、发展前景党的十八大提出"实施国家大数据战略" 国务院印发《促进大数据发展行动纲要》
党的十九大提出"推动互联网、大数据、人工智能和实体经济融合"。第一章 Hadoop一、Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
广义上来说，Hadoop通常是指一个更广泛的概念，Hadoop生态圈。二、Hadoop发展历史创始人：DougCutting Hadoop起源于Google在大数据方面的三篇论文
GFS--> HDFS
Map-Reduce --> MR
BigTable --> HBase
2003-2004年，Google公开了部分GFS和MapReduce思想细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
2005年Hadoop 作为Lucene的子项目Nutch的一部分正式引入Apache基金会。三、Hadoop三大发行版本1、Apache是最原始（最基础）的版本，对于入门学习是非常不错的。2、Cloudera在大型互联网企业运用是最多的3、Hortonworks文档是比较完善的四、Hadoop的优势1、高可靠性Hadoop 底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据丢失。2、高扩展性在集群间分配任务数据，可方便的扩展数千计的节点3、高效性在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度4、高容错性能够自动将失败的任务重新分配。五、版本区别1、Hadoop1.x组成1、MapRedouce(计算+资源调度)
2、HDFS(数据存储)
3、Common(辅助工具)2、Hadoop2.x组成1、MapReduce(计算)
2、Yarm (资源调度)
3、HDFS (数据存储)
4、Common (辅助工具)六、HDFS架构1、NameNode:存储文件的元数据，如文件名，文件目录结构，文件属性（成成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等2、DataNode:在本地文件系统存储文件块数据，以及快数据的校验3、Secondary NameNode:用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。七、YARN架构1、ResourceManager1、处理客户请求
2、监控NodeManager
3、启动或监控ApplicationMaster
4、资源的分配与调度2、NodeManager1、管理单元节点上的资源
2、处理来自ResourceManager的命令
3、处理来自ApplicationMaster的命令3、ApplicationMaster1、负责数据的切块
2、为应用程序申请资源并分配给内部的任务
3、任务的监控与容错4、ContainerContainer是YARN中的资源抽象，它封装了某一个节点上的多维资源，如内存、cpu、磁盘、网络等。5、整体架构图

八、MapReduce架构概述MapReduce 将计算过程分为两个阶段：Map和Reduce
1、Map阶段并行处理输入数据进行拆分
2、Reduce阶段对Map结果进行汇总整体架构图

九、大数据生态体系1、第一层：数据来源层数据库(结构化数据)
文件日志(半结构化数据)
视频、ppt等(非机构化数据)2、第二层: 数据传输层Sqoop数据传递
Flume日志收集
Kafka消息队列3、第三层：数据存储层HDFS文件存储
HBase非关系型数据库4、第四层：数据管理层YARN资源管理5、第五层：数据计算层MapReduce离线计算
--Hvie数据查询
--Mahout数据挖掘
Spark Core内存计算
--Mahout数据挖掘
--SparkMlib数据挖掘
--Spark R数据分析
--Spark Sql数据查询
--Spark Streaming实时计算
Storm实时计算6、第六层：任务调度层Oozie任务调度比较复杂
Azkaban任务调度器偏简单些
Zookeeper数据平台配置与调度7、第七层：业务模型层业务模型、数据可视化、业务应用第2章节 Hadoop 环境搭建一、虚拟机环境搭建1、资料下载与电脑配置1、VM虚拟机软件下载：https://www.vmware.com/cn/pro...
2、CentOS镜像文件下载：http://ftp.sjtu.edu.cn/centos...

3、检查BIOS是否开启虚拟化支持，由于电脑不同设置方式不一样，自行百度2、镜像安装1、打开虚拟机-->创建新虚拟机如图所示：

2、选择自定义(高级)-->下一步如图所示：

3、选择下一步即可如图所示：

4、选择稍后安装操作系统--> 下一步如图所示：

5、选择Linux--> 版本(CentOS 6 64位)--> 下一步如图所示：

6、编写虚拟机名称-->选择存放位置-->下一步如图所示：

7、配置处理器数量-->配置内核数量--> 下一步如图所示：

8、配置内存大小 --> 下一步如图所示：

9、网络配置 --> 下一步如图所示：

10、选择控制器类型(默认即可)-->下一步如图所示：

11、选择磁盘类型(默认即可)--> 下一步如图所示：

12、选择磁盘(默认即可)--> 下一步如图所示：

13、配置磁盘大小与分区--> 下一步如图所示：

14、选择磁盘文件(默认即可) --> 下一步如图所示：

15、点击完成即可如图所示：

16、编辑虚拟机设置如图所示：

17、配置安装镜像文件如图所示：

18、开启虚拟机如图所示：

19、选择安装鼠标点击黑色区域，键盘上下键可以移动选项，再按回车键，释放鼠标：CTAL+ALT键 如图所示：

20、选择skip --回车键如图所示
>
21、直接选择下一步如图所示：

22、选择语言--中文简体--下一步

23、选择键盘，默认英式键盘--下一步如图所示：

24、选择默认基本存储设备--下一步如图所示：

25、存储设备警告，选择是忽略所有数据如图所示：

26、编写主机名称，默认即可如图所示：

27、选择时区--亚洲/上海即可 --下一步如图所示：

28、设置用户密码输入6位长度密码

29、密码太简单提示，选择无论如何都使用即可

30、设置布局，选择创建自定义布局 --下一步

31、创建分区--/(根分区)

32、设置根分区大小

33、创建boot分区步骤与上面一样

34、创建swap分区步骤如上

35、配置完成 ,点击下一步

36、选择格式化

37、选择将修改写入磁盘

38、默认下一步即可

39、等待安装

40、安装完成，重启引导

41、登录，输入账号root 输入密码：直接输入不会显示输入完按回车键
3、克隆镜像文件1、选择虚拟机--右键--选择管理--选择克隆如图所示：

2、选择下一步：

3、克隆来源选择虚拟机中当前状态 --下一步

4、克隆类型选择完整克隆 --下一步

5、编写虚拟机名称--虚拟机存储放位置--完成 --完成关闭即可
4、网络配置1、查看本地网络打开控制台(windows+R)--输入cmd--回车键--输入ipconfig 如图所示：

2、配置虚拟机网络选择虚拟机--选择编辑--选择虚拟网络编辑

3、选择更改设置

4、配置VMnet8 选择VMnet8 比较子网IP是否与本地VMnet8 中的IPv4是否在同一个网段

5、配置DHCP设置配置IP使用范围修改起始IP

6、配置NAT设置(一般默认即可)

7、最后选择应用保存--确定即可

8、进入虚拟机，查看IP 命令如下

    ip addr

9、如图所示：IP未配置好

10、修改网络,修改文件如下

vi /etc/udev/rules.d/70-persistent.rules #vi 表示编辑文件
dd #表示删除一行 在未进入编辑状态 键盘输入dd 删除eth0 并把eth1 改为eth0
# 进入编辑模式 按键盘 i

11、记录ATTR值

12、保存修改按esc 输入冒号输入字母wq 如图所示：

13、配置IP地址并保存

#修改网络配置文件
vi /ete/sysconfig/network-scripts/ifcfg-eth0

IPADDR 为静态IP
GATEWAY 为默认网关IP

14、修改本机名称改为hadoop101 如图所示：

vi /etc/sysconfig/network

15、修改host 命令如下：添加如下值

vi /etc/hosts

16、重启系统命令：reboot
17、查看IP 命令：ip addr 配置成功

18、测试是否能ping通 cmd 打开控制台输入 ping ip地址如图表示配置成功

19、测试是否能连接外网如图表示成功
5、Xshell使用1、下载地址：http://www.hostbuf.com/
2、创建服务器连接如图所示：

3、配置连接如图所示：

4、正式连接服务器双击地址-- 接受并保存

5、提示连接成功如图所示
6、用户管理1、添加新用户
useradd 用户名
2、将用户添加到用户组
useradd -g 组名用户名
3、设置用户密码
passwd 用户名
4、切换用户
su 用户名
5、删除用户
userdel 用户名称删除用户但保存用户主目录
userdel -r 用户名称用户和用户主目录都删除
6、查看用户信息
whoami 显示自身用户名称
who am i 显示登录用户的用户名称
7、设置普通用户具有root权限
sudo #最高权限执行
修改地址：vi /etc/sudoers 如图所示：此处使用强制保存 wq!

8、查看用户组 id 用户名

9、设置用户组 usermod -g root ahui

10、新增用户组 groupadd 组名
11、删除用户组 groupdel 组名
12、修改用户组 groupmod -n 新组名老组名
13、修改文件权限 chmod
14、修改所有文件权限 chown
15、改变所属组 chgrp7、创建文件1、在opt目录下创建两文件夹 module、software
cd /opt #进入opt目录
2、创建文件 mkdir module 错误提示如图：

3、使用 sudo mkdir module #sudo 表示以最高权限执行

4、修改文件所属权限
sudo chown ahui:ahui module/ software/
8、上传文件1、jdk-8u231-linux-x64.tar.gz
2、hadoop-2.7.2.tar.gz

特别申明：本文内容来源网络，版权归原作者所有，如有侵权请立即与我们联系（cy198701067573@163.com），我们将及时处理。

上一篇：前端面试每日 3+1 —— 第529天

下一篇： Java笔记01--IDEA整合Gitee(码云)

Tags 标签

加个好友，技术交流

码农天地

首页 HTML/CSS WEB服务器 PHP Linux 数据库异常报错插件工具美文欣赏站长直荐