当前位置: 首页 > news >正文

网站制作价格站长之家app

网站制作价格,站长之家app,网站做游客留言做,ui培训排名1.数据预处理 根据自己或者学校系统预制的数据 使用less sogou.txt可查看 wc -l sogou.txt 能够查看总行数 2.数据扩展部分 我的数据位置存放在 /data/bigfiles 点击q退出 将一个文件的内容传递到另一个目录文件下 原数据在 /data/bigfiles ->传递 到/data/workspac…

1.数据预处理

根据自己或者学校系统预制的数据

使用less sogou.txt可查看

wc -l sogou.txt 能够查看总行数

2.数据扩展部分

我的数据位置存放在 /data/bigfiles

点击q退出

将一个文件的内容传递到另一个目录文件下

原数据在 /data/bigfiles  ->传递 到/data/workspace

awk -F '\t' '{print $0 "\t" substr($1,1,4) "\t" substr($1,5,2) "\t" substr($1,7,2) "\t" substr($1,9,2)}' /data/bigfiles/sub_sogou.txt>/data/workspace/sub_sogou-ext.txt

继续使用less命令可以查看数据扩展结果

3.数据加载

将数据加载到HDFS

hdfs dfs -mkdir -p /sogou/20111230

hdfs dfs -put /data/workspace/sub_sogou.txt /sogou/20111230

hdfs dfs -mkdir -p /sogou_ext/20111230

hdfs dfs -put /data/workspace/sub_sogou.txt /sogou_ext/20111230

 基于Hive构建日志数据的数据仓库

要记得启动hive

接下来的操作均在hive客户端完成

1.基本操作

查看数据库的命令:show databases;

创建数据库sogou:create database if not exists sogou;

接下来使用数据库:use sogoul

查看表名:show tables;

创建外部表sogou_22106128用于加载sogou.txt的数据

CREATE EXTERNAL TABLE sogou.sogou_22106128 (ts STRING,uid STRING,keyword STRING,rank INT,order_num INT, url STRING
)
COMMENT 'This is the sogou search data of one day'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/sogou/22106128';

 desc sogou_22106128可查看相关字段和类型

2.创建分区(按照年、月、日、小时)

创建四个字段数据的外部表

CREATE EXTERNAL TABLE sogou.sogou_ext_22106128 (ts STRING,uid STRING,keyword STRING,rank INT,order1 INT, url STRING,year INT,month INT,day INT,hour INT
)
COMMENT 'this is the sogou search data of extend'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t' 
STORED AS TEXTFILE
LOCATION '/sogou_ext/22106128'; 

 创建好后创建分区表:

CREATE EXTERNAL TABLE sogou.sogou_partition (ts STRING,uid STRING,keyword STRING,rank INT,order1 INT, url STRING
)
PARTITIONED BY (year INT, month INT, day INT, hour INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'  
STORED AS TEXTFILE
LOCATION '/path/to/sogou_partition'; 

 最后向分区表sogou_partition中载入数据:

set hive.exec.dynamic.partition.mode=nonstrict; //开启动态分区模式为非严格的

这部分参考的老师的代码:

 

http://www.dt0577.cn/news/14749.html

相关文章:

  • 公司资质介绍模板关键词推广优化外包
  • 广东上海专业网站建设公司天津网站优化
  • dw网站图片滚动怎么做网站关键词排名优化方法
  • 东莞官方网站设计steam交易链接怎么用
  • 网站别人备案怎么办理佛山网站优化服务
  • 邢台移动网站建设电商平台推广公司
  • 搭建直播网站需要怎么做百度广告怎么收费
  • 禅城区做网站策划steam交易链接怎么看
  • 哈尔滨建站在线咨询网站竞价推广都有哪些
  • 深圳建网建网站茶叶营销策划方案
  • 义乌 网站建设推广营销seo推广排名重要吗
  • 咸宁网站建设多少钱免费python在线网站
  • 建设一个微网站要花多少钱各城市首轮感染高峰期预测
  • 华夏业务员做单的网站实体店营销策划方案
  • 如何制作游戏建网站seo
  • 行业b2b网站源码阿里指数数据分析平台官网
  • 做网站的后台开发需要会些什么上海宝山网站制作
  • 自己怎么设计公司标志杭州seo公司排名
  • 新乡 网站建设seo引擎优化怎么做
  • 茶企业网站建设模板搭建一个网站需要什么
  • 深圳响应式网站建设企业网络推广的方法有哪些
  • 巴城镇建设网站关键词排名优化软件价格
  • 河北涿州住房和城乡建设厅网站媒体:北京不再公布疫情数据
  • 那个网站可教做课件好百度浏览器网址
  • seo网站建设百度官网首页登录
  • 网站开发超速云seo是干啥的
  • 漯河做网站xknt小程序推广的十种方式
  • 传媒公司营业执照怎么办理如何提高搜索引擎优化
  • 广州高端品牌网站建设哪个搜索引擎最好用
  • 湖北住房城乡建设厅网站seo网络优化招聘信息