自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

北京小辉

学习是一种享受,也是一种痛苦,更是一种回忆!!!

  • 博客(14)
  • 资源 (14)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 大数据优化方案----Spark案例优化(一)

一、需求       通过分析用户浏览新闻热门话题的日志,统计每个话题下被浏览量最多的用户topN,即按照话题分组,在每一个组内进行排序二、样例数据数据格式:话题,时间,被浏览的用户id#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,20...

2019-12-30 22:21:51 423 1

原创 MAVEN仓库中LastUpdated文件生成原因及删除方法[Windows和Linux]

maven仓库中的LastUpdated文件生成原因maven依赖中由于各种原因(网速慢、断网)导致jar包下载不下来,出现很多.lastUpdated文件。只能手动删除这些文件。同时一个Jar包中可能依赖其余Jar包。但是一个一个删除太麻烦。所以需要一个批量操作的脚本。hbase-client-2.2.1.pom.lastUpdated 内容如下:#NOTE: This is a Mav...

2019-12-30 21:21:57 1069

原创 大数据面试宝典目录--【每天】不断更新中请期待

JAVA面试题目录mysql分组取topN的三种方式大顶堆和小顶堆–Java版二分查找–Java版大数据面试题目录

2019-12-28 09:43:26 1952 8

原创 Hive教程(三)---Hive的集合数据类型创建和查询

目录一、map类型创建和查询二、array类型创建和查询三、struct类型创建和查询一、map类型创建和查询操作步骤## 建表语句create table hive_map(id int , name string , data_map map<string,string>)row format delimited fields terminated by ' '...

2019-12-22 22:26:19 240

原创 Spark深入解读(九)---- 窗口函数和API集合

目录一、窗口函数种类二、具体用法如下三、数据及程序四、结果展示一、窗口函数种类ranking 排名类analytic 分析类aggregate 聚合类Function TypeSQLDataFrame APIDescriptionRankingrankrankrank值可能是不连续的Rankingdense_rankdenseRank...

2019-12-21 15:36:30 309

原创 classOf[T]、getClass和 class

目录一、classOf[T]、getClass和 class案例二、关于协变和逆变三、总结:一、classOf[T]、getClass和 class案例上面显示了两者的不同之处,getClass 方法得到的是 Class[A]的某个子类,而 classOf[A] 得到是正确的 Class[A],但是去比较的话,这两个类型是equals为true的。这里有细微的差别,体现在类型赋...

2019-12-20 18:18:51 263

原创 scala 数据类型体系一览图

在 scala 中有一个根类型 Any ,他是所有类的父类.scala中一切皆为对象,分为两大类AnyVal(值类型),AnyRef(引用类型),他们都是Any子类.Null 类型是 scalaNull 类型是 scala的特别类型,它只有一个值 null, 他是 bottom calss ,是 所有 AnyRef 类型的子 类.Nothing类型也是bottomclass,他是所有类的子...

2019-12-20 11:25:22 197

原创 通过fastjson解析json数据工具

目录一、原始数据内容二、通过fastjson解析json数据一、原始数据内容eventLogJson.txt{ "u": { "cookieid": "HsOorABPB", "account": "05289", "email": "Fh8h@G4hbi.com", "phoneNbr": "20096655112", "birthday": "2002-01-1...

2019-12-15 20:33:04 176

原创 TF-IDF(词频-逆文档频率)介绍

概念       词频-逆文档频度(Term Frequency - Inverse Document Frequency,TF-IDF)技术,是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加 ,但同时会 随着它在语料库中出现的频率成反比下降 。如果某个...

2019-12-11 14:55:34 1410

原创 Mysql案例(一)---分组取topN的三种方式

问题:有表 如下,要求取出各班前两名(允许并列第二)表内容如下所示:idSNameClsNoScore1AAAAC1672BBBBC1553CCCCC1674DDDDC1655EEEEC1956FFFFC2577GGGGC2878HHHHC2749IIII

2019-12-10 09:27:17 473

原创 Mysql教程(十二)---cross join 的用法(笛卡尔积)

CROSS JOIN又称为笛卡尔乘积,实际上是把两个表乘起来。[实例]:SQL CROSS JOIN will return all records where each row from the first table is combined with each row from the second table. Which also mean CROSS JOIN returns the...

2019-12-06 15:08:57 385

原创 数学常识--数学符号常识

科学计数法中的E在科学计数法中,为了使公式简便,可以用带“E”的格式表示。E(代表指数)表示将前面的数字乘以 10 的 n 次幂。1.23E+10,即 1.23 乘以 10 的 5 次幂 = 1230001.23E-10,即 1.23 乘以 10 的 -5 次幂 = 0.0000123自然指数e自然指数e,为自然对数的底数,有时亦称之为欧拉数(Euler’s Number),是一个无限...

2019-12-05 22:08:46 1201 1

原创 数学常识--两点之间距离公式

方差和标准差标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。⒈方差 s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/(n)(x为平均数)⒉标准差...

2019-12-05 18:33:47 610

原创 数学常识--标准差、方差、协方差三者的表示意义

三者都是统计学中,对于样本的集合描述。一、定义公式       1.标准差:       2.方差:       3.协方差:       4.协方差相关系数:二、数学实际含义      ...

2019-12-05 16:22:18 1049

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉,中科院硕士研究生毕业,专注于大数据领域多年。曾工作于清华大学、京东,现从事大数据讲师一职。 博客地址:https://blog.csdn.net/silentwolfyh

2020-05-05

silentwolf

让你在最短时间学会ASP.NET 通俗易懂

2010-05-19

新概念2知识点.pdf

新概念2-课文名称和知识点,链接:https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明: 2、选择爬取 代码说明: 1、如果没有参数,则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误,会邮件报警,且不影响其余银行抓取 2、如果有参数(参数只能有一个)且参数正确,则抓取对应银行数据 3、如果有参数(参数只能有一个)且参数操作,则停止运行,弹出正确参数列表 4、15家银行的银行名称、 银行代码 、 银行URL如下所示: 备注: 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位,后面全部替换成*****

2019-01-26

sqoop的数据导入

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法 参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录 一、整体结构图 二、Spring boot搭建 三、整合Mybatis(自动生成工具) 1、集成druid,使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件: 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者:silentwolfyh 来源:CSDN 原文:https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明:本文为博主原创文章,转载请附上博文链接!

2018-11-12

传智播客---lucene入门

目录介绍 1、 Lucene介绍 a) 什么是lucene b) 全文检索的应用场景 c) 全文检索定义 2、 Luence实现全文检索的流程(重点) 3、 入门程序 4、 Field域(重点) 5、 索引维护 a) 添加索引 b) 删除索引 c) 修改索引 6、 搜索(重点) a) 通过Query子类创建查询对象 b) 通过QueryParser创建查询对象 7、 相关度排序 8、 中文分词器(重点)

2018-08-28

Lucene实战(第2版).pdf

《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录 一:为什么sparkSQL? 3 1.1:sparkSQL的发展历程 3 1.1.1:hive and shark 3 1.1.2:Shark和sparkSQL 4 1.2:sparkSQL的性能 5 1.2.1:内存列存储(In-Memory Columnar Storage) 6 1.2.2:字节码生成技术(bytecode generation,即CG) 6 1.2.3:scala代码优化 7 二:sparkSQL运行架构 8 2.1:Tree和Rule 9 2.1.1:Tree 10 2.1.2:Rule 10 2.2:sqlContext的运行过程 12 2.3:hiveContext的运行过程 14 2.4:catalyst优化器 16 三:sparkSQL组件之解析 17 3.1:LogicalPlan 18 3.2:SqlParser 20 3.1.1:解析过程 20 3.1.2:SqlParser 22 3.1.3:SqlLexical 25 3.1.4:query 26 3.3:Analyzer 26 3.4:Optimizer 28 3.5:SpankPlan 30 四:深入了解sparkSQL运行计划 30 4.1:hive/console安装 30 4.1.1:安装hive/cosole 30 4.1.2:hive/console原理 31 4.2:常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3:不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4:不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5:查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五:测试环境之搭建 40 5.1:虚拟集群的搭建(hadoop1、hadoop2、hadoop3) 41 5.1.1:hadoop2.2.0集群搭建 41 5.1.2:MySQL的安装 41 5.1.3:hive的安装 41 5.1.4:Spark1.1.0 Standalone集群搭建 42 5.2:客户端的搭建 42 5.3:文件数据准备工作 42 5.4:hive数据准备工作 43 六:sparkSQL之基础应用 43 6.1:sqlContext基础应用 44 6.1.1:RDD 44 6.1.2:parquet文件 46 6.1.3:json文件 46 6.2:hiveContext基础应用 47 6.3:混合使用 49 6.4:缓存之使用 50 6.5:DSL之使用 51 6.6:Tips 51 七:ThriftServer和CLI 51 7.1:令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2:ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3:小结 56 八:sparkSQL之综合应用 57 8.1:店铺分类 57 8.2:PageRank 59 8.3:小结 61 九:sparkSQL之调优 61 9.1:并行性 62 9.2: 高效的数据格式 62 9.3:内存的使用 63 9.4:合适的Task 64 9.5:其他的一些建议 64 十:总结 64

2018-08-16

MacBook Pro的快捷键

目录: 一、开机相关命令快捷键 , 二、常用系统快捷键 , 三、窗口操作 , 四、Finder , 五、屏幕截图

2018-08-16

hadoop-Apache2.7.3+Spark2.0集群搭建

包括了:Hadoop2.7.3、Spark2.0、Zookeeper3.4.8、Hive、Hbase、Kafka2.10、Flume的环境搭建

2018-08-16

SqlServer驱动包

SqlServer驱动包,代码请关注http://blog.csdn.net/silentwolfyh

2015-08-30

silentwolfyh的留言板

发表于 2020-01-02 最后回复 2020-01-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除