- 博客(14)
- 资源 (14)
- 论坛 (1)
- 问答 (1)
- 收藏
- 关注
原创 大数据优化方案----Spark案例优化(一)
一、需求 通过分析用户浏览新闻热门话题的日志,统计每个话题下被浏览量最多的用户topN,即按照话题分组,在每一个组内进行排序二、样例数据数据格式:话题,时间,被浏览的用户id#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,20...
2019-12-30 22:21:51
423
1
原创 MAVEN仓库中LastUpdated文件生成原因及删除方法[Windows和Linux]
maven仓库中的LastUpdated文件生成原因maven依赖中由于各种原因(网速慢、断网)导致jar包下载不下来,出现很多.lastUpdated文件。只能手动删除这些文件。同时一个Jar包中可能依赖其余Jar包。但是一个一个删除太麻烦。所以需要一个批量操作的脚本。hbase-client-2.2.1.pom.lastUpdated 内容如下:#NOTE: This is a Mav...
2019-12-30 21:21:57
1069
原创 大数据面试宝典目录--【每天】不断更新中请期待
JAVA面试题目录mysql分组取topN的三种方式大顶堆和小顶堆–Java版二分查找–Java版大数据面试题目录
2019-12-28 09:43:26
1952
8
原创 Hive教程(三)---Hive的集合数据类型创建和查询
目录一、map类型创建和查询二、array类型创建和查询三、struct类型创建和查询一、map类型创建和查询操作步骤## 建表语句create table hive_map(id int , name string , data_map map<string,string>)row format delimited fields terminated by ' '...
2019-12-22 22:26:19
240
原创 Spark深入解读(九)---- 窗口函数和API集合
目录一、窗口函数种类二、具体用法如下三、数据及程序四、结果展示一、窗口函数种类ranking 排名类analytic 分析类aggregate 聚合类Function TypeSQLDataFrame APIDescriptionRankingrankrankrank值可能是不连续的Rankingdense_rankdenseRank...
2019-12-21 15:36:30
309
原创 classOf[T]、getClass和 class
目录一、classOf[T]、getClass和 class案例二、关于协变和逆变三、总结:一、classOf[T]、getClass和 class案例上面显示了两者的不同之处,getClass 方法得到的是 Class[A]的某个子类,而 classOf[A] 得到是正确的 Class[A],但是去比较的话,这两个类型是equals为true的。这里有细微的差别,体现在类型赋...
2019-12-20 18:18:51
263
原创 scala 数据类型体系一览图
在 scala 中有一个根类型 Any ,他是所有类的父类.scala中一切皆为对象,分为两大类AnyVal(值类型),AnyRef(引用类型),他们都是Any子类.Null 类型是 scalaNull 类型是 scala的特别类型,它只有一个值 null, 他是 bottom calss ,是 所有 AnyRef 类型的子 类.Nothing类型也是bottomclass,他是所有类的子...
2019-12-20 11:25:22
197
原创 通过fastjson解析json数据工具
目录一、原始数据内容二、通过fastjson解析json数据一、原始数据内容eventLogJson.txt{ "u": { "cookieid": "HsOorABPB", "account": "05289", "email": "Fh8h@G4hbi.com", "phoneNbr": "20096655112", "birthday": "2002-01-1...
2019-12-15 20:33:04
176
原创 TF-IDF(词频-逆文档频率)介绍
概念 词频-逆文档频度(Term Frequency - Inverse Document Frequency,TF-IDF)技术,是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加 ,但同时会 随着它在语料库中出现的频率成反比下降 。如果某个...
2019-12-11 14:55:34
1410
原创 Mysql案例(一)---分组取topN的三种方式
问题:有表 如下,要求取出各班前两名(允许并列第二)表内容如下所示:idSNameClsNoScore1AAAAC1672BBBBC1553CCCCC1674DDDDC1655EEEEC1956FFFFC2577GGGGC2878HHHHC2749IIII
2019-12-10 09:27:17
473
原创 Mysql教程(十二)---cross join 的用法(笛卡尔积)
CROSS JOIN又称为笛卡尔乘积,实际上是把两个表乘起来。[实例]:SQL CROSS JOIN will return all records where each row from the first table is combined with each row from the second table. Which also mean CROSS JOIN returns the...
2019-12-06 15:08:57
385
原创 数学常识--数学符号常识
科学计数法中的E在科学计数法中,为了使公式简便,可以用带“E”的格式表示。E(代表指数)表示将前面的数字乘以 10 的 n 次幂。1.23E+10,即 1.23 乘以 10 的 5 次幂 = 1230001.23E-10,即 1.23 乘以 10 的 -5 次幂 = 0.0000123自然指数e自然指数e,为自然对数的底数,有时亦称之为欧拉数(Euler’s Number),是一个无限...
2019-12-05 22:08:46
1201
1
原创 数学常识--两点之间距离公式
方差和标准差标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。⒈方差 s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/(n)(x为平均数)⒉标准差...
2019-12-05 18:33:47
610
原创 数学常识--标准差、方差、协方差三者的表示意义
三者都是统计学中,对于样本的集合描述。一、定义公式 1.标准差: 2.方差: 3.协方差: 4.协方差相关系数:二、数学实际含义 ...
2019-12-05 16:22:18
1049
Mysql教程所有数据.zip
2020-05-05
crawlerBank.py
2019-07-08
SpringBoot的mvc三层以及增删改查页面
2018-11-22
spring boot+mybatis整合
2018-11-12
传智播客---lucene入门
2018-08-28
Lucene实战(第2版).pdf
2018-08-28
SparkSql技术
2018-08-16
hadoop-Apache2.7.3+Spark2.0集群搭建
2018-08-16
silentwolfyh的留言板
发表于 2020-01-02 最后回复 2020-01-02
mac版本idea中路径颜色设置
2020-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝