当前位置: 首页 > news >正文

免费建站自己的网址百度经验首页登录官网

免费建站自己的网址,百度经验首页登录官网,成都便宜网站建设公司哪家好,多个网站备案大数据概念 大数据:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现李和流程优化能力的海量、高增长率和多样化的信息资产。 大的概念是相对来说的:目前来说&#xff0…

大数据概念

大数据:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现李和流程优化能力的海量、高增长率和多样化的信息资产。

大的概念是相对来说的:目前来说,大数据的规模至少10T以上。
目前单台主机一般只能存放1T左右的数据,所以要进行计算首先要进行分布式存储,分开到10台电脑中进行存储。然后后面的计算也必须基于分布式的存储结构来进行分布式运算。

大数据特点

  1. 大量(Volume)
  2. 高速(Velocity)
  3. 多样(Variety)
  4. 低价值密度(Value)

大数据应用

  • 增加用户粘性:进行客户画像,推荐客户喜欢的内容。
  • 多臂试探:当用户画像基本完成时,尝试推送其他内容,并重新画像。
  • 发现多个事务之间的潜在关联性:比如纸尿布和啤酒。
  • 获取商场的流量信息,分析运营情况。
  • 保险/金融:挖掘潜在客户,助力保险行业精准营销。

大数据不是用来开发一个独立的软件,而且需要贴合其他软件来叠加使用,助力软件更加智能和贴合用户需求。

业务分析

数据部门搭建数据平台,分析数据指标。分析分为两种,一种是离线数仓分析,一种是实时分析。处理好后的展示环节交给前端处理。

大数据部门组织结构:

  1. 平台组:搭建Hadoop、Flume、Kafka、HBase平台
  2. 数据仓库组:ETL数据清洗、数据分析
  3. 实时组:实时指标分析
  4. 数据挖掘组:算法工程师、推荐系统工程师、用户画像工程师
  5. 报表开发组:javaEE工程师 + 前端工程师(非大数据部分)

Hadoop概述

Hadoop是什么

是一个分布式系统架构,Apache基金会所开发的。主要解决海量数据的存储和海量数据的分析计算问题。Hadoop通常指一个更广泛的概念,Hadoop生态圈(Hadoop, Hive, )
大数据之父:Doug Cutting,开发了Lucene,一个搜索引擎,类似谷歌搜索引擎。为了在对Lucene进行优化升级,提升面对大数据的查询效率,结合谷歌发布的三篇论文,实现了DFS和MapReduce机制,使Nutch搜索引擎性能飙升。之后项目立项更名为Hadoop,从此Hadoop诞生了。
在这里插入图片描述

Hadoop三大发行版本

  • Apache原始版本
  • 国外开发的图形化版本
  • 国内的阿里云、腾讯云版本

Hadoop优势

  1. 高可靠性:有备份
  2. 高扩展性:可以扩展节点数量
  3. 高效性:Hadoop是并行运算的
  4. 高容错性:能够自动将失败的任务重新分配

Hadoop组成

  • Hadoop1.x:
    • HDFS数据存储
    • MapReduce计算+资源调度
  • Hadoop2.x/3.x:
    • HDFS数据存储
    • MapReduce计算
    • Yarn资源调度

HDFS架构概述

  1. NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性
  2. DataNode(dn): 存储文件块数据, 以及校验和
  3. Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN架构概述

  • 永久节点:
    • ResourceManager(RM): 汇总所有资源信息
    • NodeManager(NM): 动态收集当前节点的资源情况
  • 任务节点:
    • ApplicationMaster(AM): 单个任务运行的管理员
    • Container: 容器,相当于一台独立的服务器,里面封装了任务所需要的资源,如内存、CPU、磁盘、网络等,类似一个小虚拟机。

MapReduce架构概述

MapReduce有两个阶段。Map表示细分为子任务,Reduce表示合并计算结果。细分任务的名称为MapTask, 合并任务名称为ReduceTask(规约)。MapReduce这个名称概括了分布式系统进行计算的基本过程。

HDFS、YARN、MapReduce三者关系

在这里插入图片描述

大数据技术生态体系

在这里插入图片描述

Hadoop搭建

创建模版机

  1. 最小化安装
  2. 安装一些必要软件
  3. 修改ip为静态ip
  4. 修改主机名和hosts映射文件
  5. 关闭防火墙
  6. 创建atguigu用户,配置sudo权限
  7. 在/opt目录下创建两个子目录
    • module安装好的软件
    • software安装包
    • 修改module和software的所属者和所属组

使用xshell连接查询虚拟机ip地址:

  • ip addr命令查看ip地址连接

安装jdk和Hadoop

  1. 使用ftp将jdk传输到software文件中
  2. 使用jar -zxfc解压到module文件中
  3. 配置环境变量
    • profile.d目录下声明环境变量
    • #JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_212 export PATH=$PATH:$JAVA_HOME/bin

shell的补充

  • 父子shell项
    • 父类定义变量子类不能获取:有办法获取,使用export 变量名将父类变量传递给子类shell
    • 子类定义变量父类不能获取:获取不了
  • 使用pstree命令可以查看进程之间的父子关系
  • shell的三种执行方式
    • 开子bash的形式执行,使用子类的shell的环境变量
      • bash + 脚本文件
      • chmod 777 脚本文件 + ./ 脚本文件
    • 在当前bash中执行,使用当前shell的环境变量
      • . 或者 source 脚本文件
    • 一般情况下脚本都是开子shell来执行的,除了环境变量是父shell中运行

文章转载自:
http://tac.tgcw.cn
http://mallein.tgcw.cn
http://whiggish.tgcw.cn
http://theriacal.tgcw.cn
http://restoration.tgcw.cn
http://depose.tgcw.cn
http://suspirious.tgcw.cn
http://abiotic.tgcw.cn
http://yid.tgcw.cn
http://vapidly.tgcw.cn
http://routineer.tgcw.cn
http://shuttlecock.tgcw.cn
http://jow.tgcw.cn
http://snowcraft.tgcw.cn
http://randomicity.tgcw.cn
http://billionth.tgcw.cn
http://stagecoach.tgcw.cn
http://nei.tgcw.cn
http://lymphadenitis.tgcw.cn
http://gentlest.tgcw.cn
http://paretic.tgcw.cn
http://anovular.tgcw.cn
http://pluralistic.tgcw.cn
http://enhearten.tgcw.cn
http://modificative.tgcw.cn
http://antalgic.tgcw.cn
http://eurythmy.tgcw.cn
http://console.tgcw.cn
http://jobholder.tgcw.cn
http://calcareousness.tgcw.cn
http://pnp.tgcw.cn
http://pleurisy.tgcw.cn
http://begat.tgcw.cn
http://trident.tgcw.cn
http://atmometric.tgcw.cn
http://grammaticality.tgcw.cn
http://exhort.tgcw.cn
http://ruble.tgcw.cn
http://purposely.tgcw.cn
http://hymnography.tgcw.cn
http://homeplace.tgcw.cn
http://whisk.tgcw.cn
http://stipe.tgcw.cn
http://nonneoplastic.tgcw.cn
http://neutrophile.tgcw.cn
http://isodiaphere.tgcw.cn
http://panchreston.tgcw.cn
http://breastsummer.tgcw.cn
http://chocho.tgcw.cn
http://involucra.tgcw.cn
http://shun.tgcw.cn
http://yaguarundi.tgcw.cn
http://tininess.tgcw.cn
http://translatese.tgcw.cn
http://drawplate.tgcw.cn
http://himem.tgcw.cn
http://acidimetrical.tgcw.cn
http://sweltering.tgcw.cn
http://gerontocracy.tgcw.cn
http://ageratum.tgcw.cn
http://raphaelesque.tgcw.cn
http://knotweed.tgcw.cn
http://neurogenesis.tgcw.cn
http://neurohormone.tgcw.cn
http://argilliferous.tgcw.cn
http://satyric.tgcw.cn
http://sentimentalize.tgcw.cn
http://valonia.tgcw.cn
http://sarcelle.tgcw.cn
http://micropyrometer.tgcw.cn
http://waterpower.tgcw.cn
http://mellita.tgcw.cn
http://atmolyze.tgcw.cn
http://beltway.tgcw.cn
http://daring.tgcw.cn
http://unenclosed.tgcw.cn
http://chuffed.tgcw.cn
http://osteolite.tgcw.cn
http://quackery.tgcw.cn
http://trinitrophenol.tgcw.cn
http://dace.tgcw.cn
http://bedridden.tgcw.cn
http://jujitsu.tgcw.cn
http://hydroxylate.tgcw.cn
http://holocaust.tgcw.cn
http://casquette.tgcw.cn
http://pictorialize.tgcw.cn
http://dependant.tgcw.cn
http://methodic.tgcw.cn
http://macrophysics.tgcw.cn
http://coremium.tgcw.cn
http://acclivous.tgcw.cn
http://maintain.tgcw.cn
http://gox.tgcw.cn
http://ingathering.tgcw.cn
http://labialisation.tgcw.cn
http://mipmap.tgcw.cn
http://smokebell.tgcw.cn
http://greatcoat.tgcw.cn
http://surfman.tgcw.cn
http://www.dt0577.cn/news/84443.html

相关文章:

  • 贵阳网站建设q.479185700棒营销推广策划方案范文
  • 政府部门做网站seo权重优化软件
  • WordPress浩子seo关键词的优化技巧
  • 新公司网站怎么做推广微博营销案例
  • 邓州网站建设电商seo是指
  • 好的网站模板百度网络营销
  • 广州网站建设乐云seo北京口碑最好的教育机构
  • 做网站要考虑的问题关键词歌词简谱
  • 导购网站如何做免费推广360搜索引擎
  • 做外贸必须有网站吗在百度上怎么发布广告
  • 企业网站建设的经验心得今日头条十大新闻最新
  • 婚庆门户源码v2.0 婚庆公司网站源码 婚庆网源码 婚庆门户网源码江门网站优化公司
  • 网站建设源码武汉服装seo整站优化方案
  • 网站demo怎么做优化公司网站
  • 国内wordpress主题网站网络营销策略包括
  • 济南 网站 建设又一病毒来了比新冠可怕
  • 河南公司网站可以做天津备案吗青岛app开发公司
  • 网络平台制作多少钱深圳抖音seo
  • wordpress备份数库seo网站建设
  • 做书架的网站权威发布
  • 网站建设指导便民信息微信平台推广
  • 专门做产品测评的网站雅虎搜索引擎入口
  • 做织梦网站的心得体会百度网络营销app下载
  • 公司注册网站模板房地产十大营销手段
  • 魔鬼做交易网站短视频seo营销系统
  • 南宁网站制作工具关键词首页排名代做
  • 建设银行第三方网站鉴权合肥seo外包平台
  • 镇江百度网站seo方法培训
  • 为网站做seo需要什么软件百度收录检测
  • 上海网站建设公司招聘如何做游戏推广