- 博客(19)
- 资源 (14)
- 论坛 (1)
- 问答 (1)
- 收藏
- 关注
原创 Hadoop 2.8.5 Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user:root问题解决
目录一、问题二、分析三、解决方案两种第一种方案第二种方案四、展示一、问题Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user":root:supergroup:drwx-wx-wx二、分析 我在浏览器查看目录和删除目录及文件,为什么会是d...
2020-01-12 17:54:38
2373
原创 大数据面试题(十)----Zookeeper 面试题
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。 大数据面试宝典目录,请点击目录1. 请简述ZooKeeper 的选举机制2. 客户端对ZooKeeper 的ServerList 的轮询机制3. 客户端如何正确处理CONNECTIONLOSS( 连接断开) 和SE...
2020-01-10 18:38:12
3162
1
原创 大数据面试题(九)----Spark面试题
目录1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存在Zookeeper?2. Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?3. Spark on Mesos 中,什么是的粗粒度分配,什么是细粒度分配, 各自的优点和缺点是什么?1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存...
2020-01-06 21:33:36
1057
1
原创 大数据面试题(八)----Kafka面试题
目录1.请说明什么是Apache Kafka?2.请说明什么是传统的消息传递方法?3.请说明Kafka 相对于传统的消息传递方法有什么优势?1.请说明什么是Apache Kafka? Apache Kafka 是由Apache 开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。2.请说明什么是传统的消息传递方法...
2020-01-06 21:29:47
657
1
原创 大数据面试题(七)----Flume面试题
目录1. Flume 使用场景(☆☆☆☆☆)2. Flume 丢包问题(☆☆☆☆☆)3. Flume 与Kafka 的选取1. Flume 使用场景(☆☆☆☆☆)线上数据一般主要是落地(存储到磁盘)或者通过socket 传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka 里写数据,这时候你可能就需要flume 这样的系统帮你去做传输。2. Fl...
2020-01-06 21:24:03
701
1
原创 大数据面试题(六)----HBASE 面试题
目录1. HBase 的特点是什么?2. HBase 和Hive 的区别?3. 描述HBase 的rowKey 的设计原则?4. 描述HBase 中scan 和get 的功能以及实现的异同?1. HBase 的特点是什么?1) 大:一个表可以有数十亿行,上百万列;2) 无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;...
2020-01-06 21:16:54
1241
1
原创 大数据面试题(五)----HIVE面试题
HIVE面试题Hive 表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)1) 倾斜原因: map 输出数据按key Hash 的分配到reduce 中,由于key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。(1) key 分布不均匀;(2) 业务数据本身的特性;(3) 建表时考虑...
2020-01-06 20:54:09
1468
原创 大数据优化方案----企业案例分析
海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP 取出来,逐个写入到一个大文件中。注意到IP 是32 位的,最多有个2^32 个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map 进行频率统计,然后再找...
2020-01-06 20:06:10
518
1
原创 大数据优化方案----MapReduce优化方法
MapReduce跑的慢的原因(☆☆☆☆☆)一、Mapreduce 程序效率的瓶颈在于两点:1) 计算机性能CPU、内存、磁盘健康、网络2) I/O 操作优化(1) 数据倾斜(2) map 和reduce 数设置不合理(3) reduce 等待过久(4) 小文件过多(5) 大量的不可分块的超大文件(6) spill 次数过多(7) merge 次数过多等。二、MapRedu...
2020-01-06 19:48:09
693
1
原创 大数据优化方案----HDFS小文件优化方法
HDFS 小文件优化方法(☆☆☆☆☆)1) HDFS 小文件弊端: HDFS 上每个文件都要在namenode 上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode 的内存空间,另一方面就是索引文件过大是的索引速度变慢。2) 解决的方式:(1)Hadoop 本...
2020-01-06 19:37:48
937
1
原创 大数据面试题(四)----YARN面试题
简述hadoop1 与hadoop2 的架构异同加入了yarn 解决了资源调度的问题。加入了对zookeeper 的支持实现比较可靠的高可用。为什么会产生yarn,它解决了什么问题,有什么优势?Yarn 最主要的功能就是解决运行的用户程序与yarn 框架完全解耦。Yarn 上可以运行各种类型的分布式运算程序(mapreduce 只是其中的一种),比如mapreduce、stor...
2020-01-06 19:32:03
623
1
原创 大数据面试题(二)----HDFS面试题
HDFS基础HDFS 中的block 默认保存几份?(A)A.3 份B.2 份C.1 份D.不确定HDFS 默认BlockSize 是(C)A. 2MBB. 4MB(2.7.2 版本,本地模式)C. 8MB(2.7.2 版本,分布式模式)Client 端上传文件的时候下列哪项正确?(BC)A. 数据经过NameNode 传递DataNodeB. Client 端...
2020-01-06 19:15:42
2117
3
原创 大数据面试题(三)----MapReduce面试题
谈谈Hadoop 序列化和反序列化及自定义bean 对象实现序列化?1) 序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的...
2020-01-06 19:12:43
1330
4
原创 大数据面试题(一)----HADOOP 面试题
目录一、Hadoop 基础二、HDFS基础一、Hadoop 基础下列哪项通常是集群的最主要瓶颈(C)A. CPUB. 网络C. 磁盘IOD. 内存下列哪项可以作为集群的管理工具?(C)A.PuppetB.PdshC.ClouderaManagerD.Zookeeper下列哪个是Hadoop 运行的模式?(ABC)A. 单机版B. 伪分布式C. 完全...
2020-01-06 15:13:47
2851
3
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(五)【全网最全】
目录一、需求分析二、数据展示三、无头文件的CSV分析四、有头文件的CSV分析一、需求分析 将CSV文件转为DataFrame,其中CSV包括无头文件和有文件。二、数据展示无头文件的CSV1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海,835,曹操,30,深圳,90....
2020-01-04 20:42:52
296
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(四)【全网最全】
目录一、问题分析二、@BeanProperty分析三、Scala Class创建DataFrame代码四、结果展示一、问题分析 注:此处的普通类指的是scala中定义的非case class的类框架在底层将其视作java定义的标准bean类型来处理而scala中定义的普通bean类,不具备字段的java标准getters和sett...
2020-01-04 19:58:14
253
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(三)【全网最全】
目录一、数据源二、SparkSQL通过Mysql创建DataFrame代码三、结果展示一、数据源CREATE TABLE student( id int not null primary key, name varchar(20), age int(20), city varchar(20), score double(20,2))ENGINE=InnoDB ...
2020-01-04 19:36:55
195
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(二)【全网最全】
目录一、SparkSQL通过Hive创建DataFrame问题分析 问题一: 问题二: 问题三: 问题四: 问题五:...
2020-01-04 19:26:43
299
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(一)【全网最全】
目录一、数据源二、Maven的依赖三、创建DataFrame方法9种Case Class 创建DataFrameTuple 创建DataFrameJavaBean 创建DataFrameRow 创建DataFrameset集合 创建DataFramemap集合 创建DataFrameArray数组 创建DataFramemysql 创建DataFrameparquet 创...
2020-01-04 18:58:18
345
Mysql教程所有数据.zip
2020-05-05
crawlerBank.py
2019-07-08
SpringBoot的mvc三层以及增删改查页面
2018-11-22
spring boot+mybatis整合
2018-11-12
传智播客---lucene入门
2018-08-28
Lucene实战(第2版).pdf
2018-08-28
SparkSql技术
2018-08-16
hadoop-Apache2.7.3+Spark2.0集群搭建
2018-08-16
silentwolfyh的留言板
发表于 2020-01-02 最后回复 2020-01-02
mac版本idea中路径颜色设置
2020-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝