自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

北京小辉

学习是一种享受,也是一种痛苦,更是一种回忆!!!

  • 博客(19)
  • 资源 (14)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hadoop 2.8.5 Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user:root问题解决

目录一、问题二、分析三、解决方案两种第一种方案第二种方案四、展示一、问题Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user":root:supergroup:drwx-wx-wx二、分析       我在浏览器查看目录和删除目录及文件,为什么会是d...

2020-01-12 17:54:38 2373

原创 大数据面试题(十)----Zookeeper 面试题

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。 大数据面试宝典目录,请点击目录1. 请简述ZooKeeper 的选举机制2. 客户端对ZooKeeper 的ServerList 的轮询机制3. 客户端如何正确处理CONNECTIONLOSS( 连接断开) 和SE...

2020-01-10 18:38:12 3162 1

原创 大数据面试题(九)----Spark面试题

目录1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存在Zookeeper?2. Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?3. Spark on Mesos 中,什么是的粗粒度分配,什么是细粒度分配, 各自的优点和缺点是什么?1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存...

2020-01-06 21:33:36 1057 1

原创 大数据面试题(八)----Kafka面试题

目录1.请说明什么是Apache Kafka?2.请说明什么是传统的消息传递方法?3.请说明Kafka 相对于传统的消息传递方法有什么优势?1.请说明什么是Apache Kafka?       Apache Kafka 是由Apache 开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。2.请说明什么是传统的消息传递方法...

2020-01-06 21:29:47 657 1

原创 大数据面试题(七)----Flume面试题

目录1. Flume 使用场景(☆☆☆☆☆)2. Flume 丢包问题(☆☆☆☆☆)3. Flume 与Kafka 的选取1. Flume 使用场景(☆☆☆☆☆)线上数据一般主要是落地(存储到磁盘)或者通过socket 传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka 里写数据,这时候你可能就需要flume 这样的系统帮你去做传输。2. Fl...

2020-01-06 21:24:03 701 1

原创 大数据面试题(六)----HBASE 面试题

目录1. HBase 的特点是什么?2. HBase 和Hive 的区别?3. 描述HBase 的rowKey 的设计原则?4. 描述HBase 中scan 和get 的功能以及实现的异同?1. HBase 的特点是什么?1) 大:一个表可以有数十亿行,上百万列;2) 无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;...

2020-01-06 21:16:54 1241 1

原创 大数据面试题(五)----HIVE面试题

HIVE面试题Hive 表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)1) 倾斜原因:       map 输出数据按key Hash 的分配到reduce 中,由于key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。(1) key 分布不均匀;(2) 业务数据本身的特性;(3) 建表时考虑...

2020-01-06 20:54:09 1468

原创 大数据优化方案----企业案例分析

海量日志数据,提取出某日访问百度次数最多的那个IP。       首先是这一天,并且是访问百度的日志中的IP 取出来,逐个写入到一个大文件中。注意到IP 是32 位的,最多有个2^32 个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map 进行频率统计,然后再找...

2020-01-06 20:06:10 518 1

原创 大数据优化方案----MapReduce优化方法

MapReduce跑的慢的原因(☆☆☆☆☆)一、Mapreduce 程序效率的瓶颈在于两点:1) 计算机性能CPU、内存、磁盘健康、网络2) I/O 操作优化(1) 数据倾斜(2) map 和reduce 数设置不合理(3) reduce 等待过久(4) 小文件过多(5) 大量的不可分块的超大文件(6) spill 次数过多(7) merge 次数过多等。二、MapRedu...

2020-01-06 19:48:09 693 1

原创 大数据优化方案----HDFS小文件优化方法

HDFS 小文件优化方法(☆☆☆☆☆)1) HDFS 小文件弊端:       HDFS 上每个文件都要在namenode 上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode 的内存空间,另一方面就是索引文件过大是的索引速度变慢。2) 解决的方式:(1)Hadoop 本...

2020-01-06 19:37:48 937 1

原创 大数据面试题(四)----YARN面试题

简述hadoop1 与hadoop2 的架构异同加入了yarn 解决了资源调度的问题。加入了对zookeeper 的支持实现比较可靠的高可用。为什么会产生yarn,它解决了什么问题,有什么优势?Yarn 最主要的功能就是解决运行的用户程序与yarn 框架完全解耦。Yarn 上可以运行各种类型的分布式运算程序(mapreduce 只是其中的一种),比如mapreduce、stor...

2020-01-06 19:32:03 623 1

原创 大数据面试题(二)----HDFS面试题

HDFS基础HDFS 中的block 默认保存几份?(A)A.3 份B.2 份C.1 份D.不确定HDFS 默认BlockSize 是(C)A. 2MBB. 4MB(2.7.2 版本,本地模式)C. 8MB(2.7.2 版本,分布式模式)Client 端上传文件的时候下列哪项正确?(BC)A. 数据经过NameNode 传递DataNodeB. Client 端...

2020-01-06 19:15:42 2117 3

原创 大数据面试题(三)----MapReduce面试题

谈谈Hadoop 序列化和反序列化及自定义bean 对象实现序列化?1) 序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的...

2020-01-06 19:12:43 1330 4

原创 大数据面试题(一)----HADOOP 面试题

目录一、Hadoop 基础二、HDFS基础一、Hadoop 基础下列哪项通常是集群的最主要瓶颈(C)A. CPUB. 网络C. 磁盘IOD. 内存下列哪项可以作为集群的管理工具?(C)A.PuppetB.PdshC.ClouderaManagerD.Zookeeper下列哪个是Hadoop 运行的模式?(ABC)A. 单机版B. 伪分布式C. 完全...

2020-01-06 15:13:47 2851 3

原创 Spark2.3.3创建DataFrame的14种方式和源码解析(五)【全网最全】

目录一、需求分析二、数据展示三、无头文件的CSV分析四、有头文件的CSV分析一、需求分析       将CSV文件转为DataFrame,其中CSV包括无头文件和有文件。二、数据展示无头文件的CSV1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海,835,曹操,30,深圳,90....

2020-01-04 20:42:52 296

原创 Spark2.3.3创建DataFrame的14种方式和源码解析(四)【全网最全】

目录一、问题分析二、@BeanProperty分析三、Scala Class创建DataFrame代码四、结果展示一、问题分析       注:此处的普通类指的是scala中定义的非case class的类框架在底层将其视作java定义的标准bean类型来处理而scala中定义的普通bean类,不具备字段的java标准getters和sett...

2020-01-04 19:58:14 253

原创 Spark2.3.3创建DataFrame的14种方式和源码解析(三)【全网最全】

目录一、数据源二、SparkSQL通过Mysql创建DataFrame代码三、结果展示一、数据源CREATE TABLE student( id int not null primary key, name varchar(20), age int(20), city varchar(20), score double(20,2))ENGINE=InnoDB ...

2020-01-04 19:36:55 195

原创 Spark2.3.3创建DataFrame的14种方式和源码解析(二)【全网最全】

目录一、SparkSQL通过Hive创建DataFrame问题分析        问题一:        问题二:        问题三:        问题四:        问题五:...

2020-01-04 19:26:43 299

原创 Spark2.3.3创建DataFrame的14种方式和源码解析(一)【全网最全】

目录一、数据源二、Maven的依赖三、创建DataFrame方法9种Case Class 创建DataFrameTuple 创建DataFrameJavaBean 创建DataFrameRow 创建DataFrameset集合 创建DataFramemap集合 创建DataFrameArray数组 创建DataFramemysql 创建DataFrameparquet 创...

2020-01-04 18:58:18 345

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉,中科院硕士研究生毕业,专注于大数据领域多年。曾工作于清华大学、京东,现从事大数据讲师一职。 博客地址:https://blog.csdn.net/silentwolfyh

2020-05-05

silentwolf

让你在最短时间学会ASP.NET 通俗易懂

2010-05-19

新概念2知识点.pdf

新概念2-课文名称和知识点,链接:https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明: 2、选择爬取 代码说明: 1、如果没有参数,则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误,会邮件报警,且不影响其余银行抓取 2、如果有参数(参数只能有一个)且参数正确,则抓取对应银行数据 3、如果有参数(参数只能有一个)且参数操作,则停止运行,弹出正确参数列表 4、15家银行的银行名称、 银行代码 、 银行URL如下所示: 备注: 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位,后面全部替换成*****

2019-01-26

sqoop的数据导入

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法 参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录 一、整体结构图 二、Spring boot搭建 三、整合Mybatis(自动生成工具) 1、集成druid,使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件: 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者:silentwolfyh 来源:CSDN 原文:https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明:本文为博主原创文章,转载请附上博文链接!

2018-11-12

传智播客---lucene入门

目录介绍 1、 Lucene介绍 a) 什么是lucene b) 全文检索的应用场景 c) 全文检索定义 2、 Luence实现全文检索的流程(重点) 3、 入门程序 4、 Field域(重点) 5、 索引维护 a) 添加索引 b) 删除索引 c) 修改索引 6、 搜索(重点) a) 通过Query子类创建查询对象 b) 通过QueryParser创建查询对象 7、 相关度排序 8、 中文分词器(重点)

2018-08-28

Lucene实战(第2版).pdf

《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录 一:为什么sparkSQL? 3 1.1:sparkSQL的发展历程 3 1.1.1:hive and shark 3 1.1.2:Shark和sparkSQL 4 1.2:sparkSQL的性能 5 1.2.1:内存列存储(In-Memory Columnar Storage) 6 1.2.2:字节码生成技术(bytecode generation,即CG) 6 1.2.3:scala代码优化 7 二:sparkSQL运行架构 8 2.1:Tree和Rule 9 2.1.1:Tree 10 2.1.2:Rule 10 2.2:sqlContext的运行过程 12 2.3:hiveContext的运行过程 14 2.4:catalyst优化器 16 三:sparkSQL组件之解析 17 3.1:LogicalPlan 18 3.2:SqlParser 20 3.1.1:解析过程 20 3.1.2:SqlParser 22 3.1.3:SqlLexical 25 3.1.4:query 26 3.3:Analyzer 26 3.4:Optimizer 28 3.5:SpankPlan 30 四:深入了解sparkSQL运行计划 30 4.1:hive/console安装 30 4.1.1:安装hive/cosole 30 4.1.2:hive/console原理 31 4.2:常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3:不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4:不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5:查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五:测试环境之搭建 40 5.1:虚拟集群的搭建(hadoop1、hadoop2、hadoop3) 41 5.1.1:hadoop2.2.0集群搭建 41 5.1.2:MySQL的安装 41 5.1.3:hive的安装 41 5.1.4:Spark1.1.0 Standalone集群搭建 42 5.2:客户端的搭建 42 5.3:文件数据准备工作 42 5.4:hive数据准备工作 43 六:sparkSQL之基础应用 43 6.1:sqlContext基础应用 44 6.1.1:RDD 44 6.1.2:parquet文件 46 6.1.3:json文件 46 6.2:hiveContext基础应用 47 6.3:混合使用 49 6.4:缓存之使用 50 6.5:DSL之使用 51 6.6:Tips 51 七:ThriftServer和CLI 51 7.1:令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2:ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3:小结 56 八:sparkSQL之综合应用 57 8.1:店铺分类 57 8.2:PageRank 59 8.3:小结 61 九:sparkSQL之调优 61 9.1:并行性 62 9.2: 高效的数据格式 62 9.3:内存的使用 63 9.4:合适的Task 64 9.5:其他的一些建议 64 十:总结 64

2018-08-16

MacBook Pro的快捷键

目录: 一、开机相关命令快捷键 , 二、常用系统快捷键 , 三、窗口操作 , 四、Finder , 五、屏幕截图

2018-08-16

hadoop-Apache2.7.3+Spark2.0集群搭建

包括了:Hadoop2.7.3、Spark2.0、Zookeeper3.4.8、Hive、Hbase、Kafka2.10、Flume的环境搭建

2018-08-16

SqlServer驱动包

SqlServer驱动包,代码请关注http://blog.csdn.net/silentwolfyh

2015-08-30

silentwolfyh的留言板

发表于 2020-01-02 最后回复 2020-01-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除