自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

北京小辉

学习是一种享受,也是一种痛苦,更是一种回忆!!!

  • 博客(26)
  • 资源 (14)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hive教程(十一)---整合HBASE

目录6.4.1 HBase与Hive的对比6.4.2 HBase与Hive集成使用6.4.1 HBase与Hive的对比Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。HBase(1)

2020-05-15 23:32:45 195

原创 Hive教程(十)---JDBC的连接

目录10.1 创建maven项目添加依赖10.2 JAVAAPI10.1 创建maven项目添加依赖Jdbc是jdk开发的操作数据库的一套标准API(接口方法)Java提供的一套操作数据库的标准API<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId>

2020-05-15 23:28:26 245

原创 Hive教程(八)---压缩和存储
原力计划

目录8.1 Hadoop源码编译支持Snappy压缩8.2 Hadoop压缩配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 文件存储格式8.6 存储和压缩结合8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题jar包准备(hadoop源码、JDK8 、maven、proto

2020-05-15 23:18:15 202 1

原创 Mysql案例(二)---列转行

列转行SELECT GROUP_CONCAT(shop_name),product_idfrom shopproduct GROUP BY product_id;

2020-05-14 13:04:17 217

原创 Hive教程(九)---企业级调优
原力计划

目录前述9.1 Fetch抓取9.2 本地模式9.3 表的优化9.4 数据倾斜9.5 并行执行9.6 严格模式9.7 JVM重用9.8 推测执行9.9 压缩9.10 执行计划(Explain) (搜索)前述查询速度 效率分区 分桶表特殊的文件格式 列式存储的文件类型查询时候指定字段join的时候使用on 避免笛卡尔积hive底层mr , inert into valuesreduce阶段 数据倾斜 添加reduce的个数设置maptask处理数据的大小 ,

2020-05-13 22:27:54 212

原创 Hive教程(七)---函数
原力计划

目录7.1系统内置函数7.2 自定义函数7.3 自定义UDF函数7.4 json解析函数:表生成函数7.1系统内置函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数       1)Hive 自带了一些函数,比

2020-05-12 23:10:53 236

原创 Hive教程(十四)---hive常用命令备份

insert overwrite directory ‘/user/yuhui/table12’ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’select

2020-05-12 10:00:28 165

原创 Hive教程(六)---查询
原力计划

目录6.1 基本查询(Select…From)6.2 Where语句6.3 分组6.4 Join语句6.5 排序6.6 分桶及抽样查询6.7 其他常用查询函数6.1 基本查询(Select…From)6.1.1 全表和特定列查询全表查询hive (default)> select * from emp;选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)S

2020-05-11 07:44:42 253

原创 大数据优化方案---Mysql中47G大表通过SQOOP导入数据仓库
原力计划

目录一、需求二、思路三、解决方案一、需求1、由于公司的Mysql表中有很多单表存储量有几亿,单表达到40多个G2、二、思路三、解决步骤

2020-05-10 18:34:53 630 1

原创 Hive教程(五)---DML(Data Manipulation Language)数据操作
原力计划

目录5.1 数据导入5.2 数据导出5.3 清除表中数据(Truncate)5.1 数据导入5.1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' overwrite | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HD

2020-05-09 00:41:40 172

原创 Hive教程(四)---DDL(Data Definition Language)
原力计划

目录4.1 创建数据库4.2 查询数据库4.3 修改数据库4.4 删除数据库4.5 创建表4.6 分区表4.7 修改表(结构)4.8 删除表4.1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> creat

2020-05-09 00:30:00 265

原创 Hive教程(三)---Hive数据类型
原力计划

目录3.1基本数据类型3.2集合数据类型3.3类型转化表1-1 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.

2020-05-08 23:46:11 229

原创 Hive教程(二)---hive的安装
原力计划

目录2.1 Hive安装地址2.2 Hive的集群安装部署2.3 将本地文件导入Hive案例2.4 MySql安装2.5 Hive元数据配置到MySql2.6 HiveJDBC访问2.7 Hive常用交互命令2.8 Hive其他命令操作2.9 Hive常见属性配置2.1 Hive安装地址Hive官网地址文档查看地址下载地址github地址2.2 Hive的集群安装部署2.2.1 HDFS和YARN正常运行2.2.2 mysql环境准备1) [root

2020-05-08 23:30:39 291

原创 Hive教程(一)---hive入门
原力计划

目录一、hive入门1.1什么是Hive       Hive:由Facebook开源用于解决海量结构化日志的数据统计(海量的结构化数据的运算分析)。       本质是:将Hive SQL转化成MapReduce程序 或者 spark程序 。Hive是基于Hadoop的一个数据仓库工具(服务性的软件),可以将结构化的数据文件映射为一张表,并提供类似于SQL查询。      &nbs

2020-05-08 22:46:14 390

原创 Mysql教程(十四)---窗口函数

目录1、MySQL窗口函数简介2、窗口函数如何使用3、序号函数操作1、MySQL窗口函数简介       MySQL从8.0开始支持窗口函数,这个功能在大多商业数据库和部分开源数据库中早已支持,有的也叫分析函数。1)什么叫窗口?       窗口函数也就是OLAP,拼写:online analytica...

2020-05-05 20:52:44 1509

原创 Mysql教程(十三)---CASE WHEN

目录1、简单函数2、搜索函数3、案例分析4、聚合函数 sum 配合 case when1、简单函数CASE [col_name] WHEN [value1] THEN [result1]…ELSE [default] END: 枚举这个字段所有可能的值*-- 简单函数CASE <表达式> WHEN <表达式1> THEN <表达式4> ...

2020-05-05 17:34:10 265

原创 Mysql教程(十一)---内连接-外连接-全连接
原力计划

目录1、JOIN 按照功能描述2、内连接3、左外连接4、右外连接1、JOIN 按照功能描述JOIN 按照功能大致分为如下三类:INNER JOIN(内连接,或等值连接):获取两个表中字段匹配关系的记录。LEFT JOIN(左连接):获取左表所有记录,即使右表没有对应匹配的记录。RIGHT JOIN(右连接): 与 LEFT JOIN 相反,用于获取右表所有记录,即使左表没有对应...

2020-05-05 10:26:48 633

原创 Mysql教程(十)---子查询

目录1、子查询功能和约束2、需求:找出大于平均值得房屋3、需求:在原有列中加入,房屋平均价格列4、需求:朝向和卫生间房屋分组的平均价格大于总平均价格5、需求:相同卧室个数的大于,大于平均价格6、EXIST与NOT EXIST备注:Mysql教程(一)—本教程数据准备1、子查询功能和约束子查询:通过多个嵌套获得结果运行过程:先执行内部查询,在执行外部查询作用域:外嵌套的表名称...

2020-05-04 19:34:13 336

原创 Mysql教程(九)---分组

目录1、数据展示2、分组的意义3、HAVING过滤分组4、分组排序及执行顺序备注:Mysql教程(一)—本教程数据准备1、数据展示2、分组的意义及约束分组的意义1)分组时候,分组的字段一定要出现在select 字段中2)分组时候,select 可以出现聚合函数分组的约束1)对null的处理2)select 中有多余的字段3)低版本 不能按照别名进行分组,5.8可以使用...

2020-05-04 13:47:11 613

原创 Mysql教程(八)---常用的聚集函数

目录1、数据展示2、平均及坑3、统计count及坑4、distinct什么时候用5、其他函数备注:Mysql教程(一)—本教程数据准备1、数据展示1、平均及坑1)avg 是一个数字计算函数2)如果有null ,则对null值列去掉之后再开始计算比如:1,2,3,4, 5,null,7,8 avg计算为:1+2+3+4+5+7+8 / 72、统计count及坑1)...

2020-05-04 12:13:19 283

原创 Mysql教程(七)---高效的数据处理函数

目录1、时间日期处理2、数值处理函数3、文本处理函数备注:Mysql教程(一)—本教程数据准备1、时间日期处理CurDate() 返回当前日期 CurTime() 返回当前时间Date() 返回日期时间的日期部分 DateDiff() 计算两个日期之差 Day() 返回一个日期的天数部分 DayOfWeek() 对于一个日期,返回对应的星期几 ,注意返回值星期日为1,星期一...

2020-05-04 11:34:49 1263

原创 Mysql教程(六)---计算字段

目录1、concat2、别名3、计算1、concat-- 通过CONCAT将过多字符串连接select *, CONCAT(company,'(',city,code,')') from comcat_text;-- 如果有拼接null 则全为nullselect *, CONCAT(company,'(',city,NULL,')') from comcat_text; 2...

2020-05-04 11:18:50 326

原创 Mysql教程(五)---SQL正则表达式

目录1、SQL正则表达式列表2、SQL正则表达式案例备注:Mysql教程(一)—本教程数据准备1、SQL正则表达式列表备注: a1竖线a2 为: a1|a2 。由于Markdown中竖线为列的分隔符REGEXP说明^匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。$匹...

2020-05-04 11:00:40 694

原创 Mysql教程(四)---过滤数据

目录1、WHERE过滤2、BETWEEN3、NULL空值4、多过滤条件组合5、IN与NOT IN过滤6、LIKE与通配符过滤1、WHERE过滤select * from house_prices where Home >=10 and Home <=20; -- 并且select * from house_prices where Home <=10 ...

2020-05-04 10:34:58 533 1

原创 Mysql教程(三)---SELECT基础检索

目录1、检索指定列列2、星符号初体验3、DISTINCT 去重4、Order by5、Limit1、检索指定列列指定列名称,列的顺序为自己指定select Home , price , SqFt , Bedrooms ,Neighborhood from house_prices2、星符号初体验【*】代表全部列名称,列的顺序为建表顺序select * from house...

2020-05-04 09:49:09 834 2

原创 Mysql教程(一)---本教程数据准备

目录1、house_prices2、comcat_text3、infoMysql教程的所有表格和数据陆续加载1、house_pricesCREATE TABLE `house_prices` ( `Home` int NOT NULL COMMENT '房子编号', `Price` int DEFAULT NULL COMMENT '价格', `SqFt` int DEF...

2020-05-04 09:18:46 711 1

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉,中科院硕士研究生毕业,专注于大数据领域多年。曾工作于清华大学、京东,现从事大数据讲师一职。 博客地址:https://blog.csdn.net/silentwolfyh

2020-05-05

silentwolf

让你在最短时间学会ASP.NET 通俗易懂

2010-05-19

新概念2知识点.pdf

新概念2-课文名称和知识点,链接:https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明: 2、选择爬取 代码说明: 1、如果没有参数,则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误,会邮件报警,且不影响其余银行抓取 2、如果有参数(参数只能有一个)且参数正确,则抓取对应银行数据 3、如果有参数(参数只能有一个)且参数操作,则停止运行,弹出正确参数列表 4、15家银行的银行名称、 银行代码 、 银行URL如下所示: 备注: 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位,后面全部替换成*****

2019-01-26

sqoop的数据导入

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法 参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录 一、整体结构图 二、Spring boot搭建 三、整合Mybatis(自动生成工具) 1、集成druid,使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件: 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者:silentwolfyh 来源:CSDN 原文:https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明:本文为博主原创文章,转载请附上博文链接!

2018-11-12

传智播客---lucene入门

目录介绍 1、 Lucene介绍 a) 什么是lucene b) 全文检索的应用场景 c) 全文检索定义 2、 Luence实现全文检索的流程(重点) 3、 入门程序 4、 Field域(重点) 5、 索引维护 a) 添加索引 b) 删除索引 c) 修改索引 6、 搜索(重点) a) 通过Query子类创建查询对象 b) 通过QueryParser创建查询对象 7、 相关度排序 8、 中文分词器(重点)

2018-08-28

Lucene实战(第2版).pdf

《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录 一:为什么sparkSQL? 3 1.1:sparkSQL的发展历程 3 1.1.1:hive and shark 3 1.1.2:Shark和sparkSQL 4 1.2:sparkSQL的性能 5 1.2.1:内存列存储(In-Memory Columnar Storage) 6 1.2.2:字节码生成技术(bytecode generation,即CG) 6 1.2.3:scala代码优化 7 二:sparkSQL运行架构 8 2.1:Tree和Rule 9 2.1.1:Tree 10 2.1.2:Rule 10 2.2:sqlContext的运行过程 12 2.3:hiveContext的运行过程 14 2.4:catalyst优化器 16 三:sparkSQL组件之解析 17 3.1:LogicalPlan 18 3.2:SqlParser 20 3.1.1:解析过程 20 3.1.2:SqlParser 22 3.1.3:SqlLexical 25 3.1.4:query 26 3.3:Analyzer 26 3.4:Optimizer 28 3.5:SpankPlan 30 四:深入了解sparkSQL运行计划 30 4.1:hive/console安装 30 4.1.1:安装hive/cosole 30 4.1.2:hive/console原理 31 4.2:常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3:不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4:不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5:查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五:测试环境之搭建 40 5.1:虚拟集群的搭建(hadoop1、hadoop2、hadoop3) 41 5.1.1:hadoop2.2.0集群搭建 41 5.1.2:MySQL的安装 41 5.1.3:hive的安装 41 5.1.4:Spark1.1.0 Standalone集群搭建 42 5.2:客户端的搭建 42 5.3:文件数据准备工作 42 5.4:hive数据准备工作 43 六:sparkSQL之基础应用 43 6.1:sqlContext基础应用 44 6.1.1:RDD 44 6.1.2:parquet文件 46 6.1.3:json文件 46 6.2:hiveContext基础应用 47 6.3:混合使用 49 6.4:缓存之使用 50 6.5:DSL之使用 51 6.6:Tips 51 七:ThriftServer和CLI 51 7.1:令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2:ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3:小结 56 八:sparkSQL之综合应用 57 8.1:店铺分类 57 8.2:PageRank 59 8.3:小结 61 九:sparkSQL之调优 61 9.1:并行性 62 9.2: 高效的数据格式 62 9.3:内存的使用 63 9.4:合适的Task 64 9.5:其他的一些建议 64 十:总结 64

2018-08-16

MacBook Pro的快捷键

目录: 一、开机相关命令快捷键 , 二、常用系统快捷键 , 三、窗口操作 , 四、Finder , 五、屏幕截图

2018-08-16

hadoop-Apache2.7.3+Spark2.0集群搭建

包括了:Hadoop2.7.3、Spark2.0、Zookeeper3.4.8、Hive、Hbase、Kafka2.10、Flume的环境搭建

2018-08-16

SqlServer驱动包

SqlServer驱动包,代码请关注http://blog.csdn.net/silentwolfyh

2015-08-30

silentwolfyh的留言板

发表于 2020-01-02 最后回复 2020-01-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除