决策树是一种简单但是应用广泛的分类器。最开始了解到决策树的时候认为它太简单了,就像代码里的 if 语句一样。事实上,决策树虽然简单,但是也是一种非常有效的分类方式。将决策树通过袋装的方式组合为随机深林更是在很多数据环境中拥有比 svm 等经典分类器更优异的性能。周志华老师还提出孤立森利和深度深林等基
...
在某些时候,我们知道观测数据是由某个概率模型产生的,但是我们不知道模型的参数。而通过观测数据估计模型参数就称为参数估计。参数估计有很多种方法:最大释然估计、最大后验估计、采样等。这篇文章主要讨论最大释然估计与最大后验证估计。
最大似然估计在给定模型参数$ \theta $,观测到观测值 $X1$ 的
...
昨天在写笔记的时候发现在 typora 中可以正确显示的 latex 公式 hexo 无法正确渲染。hexo 默认渲染器不支持 latex公式。需要安装插件才能使用。这里我采用了hexo-renderer-markdown-it-plus 替换默认的渲染器。其中公式渲染采用 katex 使用步骤如下
...
熵最初是一个热力学中表征物质状态的参量,是体系混乱程度的度量。香农大佬在通讯的数学原理这篇论文中用来表示一个信源所发出的信息具有的平均信息量。可以说如果没有香农大佬这篇论文,就没有现在的现代通信体系。虽然信源熵这个概念出自通信,但是在其他的领域也有很广泛的应用。在数据挖掘和机器学习中也有所体现。由于
...
之前一直使用 vscode 写的 spark-shell 脚本,然后上传到服务器跑。但是 vscode 对 scala 支持实在是太差了,连基本的自动补全和语法检查都不支持。后来实在是忍受不了了,决定使用 idea 搭建一个编写 spark-shell 脚本的环境。注意搭建这个环境主要是为了自动补全
...
在上一章使用hexo+github搭建自己的博客介绍了如何使用 hexo 以及 github 搭建自己的博客。但是随后我们就遇到了一个问题: 如何我们想在多台电脑上编辑我们的博客应该怎么办。当然,我们可以选择新建一个仓库|分支利用 github 在多台电脑上同步。但是这种方式有一点繁琐,每次写作之前
...
拖了这么久终于把 shuffle read 部分的源码看了一遍了。虽然 shuffle read 再数据合并部分的逻辑要比 shuffle 简单,但是由于这个过程中 executor 要到 master 拉取 shuffle write 结果信息,就涉及到 spark 的 block manager
...
昨天在利用 Spark 进行统计分析的时候大佬提醒我可以适当的减少分区数量来加快作业的执行速度。于是今天测试了一下,利用sc.textFile("xxx")读取数据,采用默认分区(6657个)时执行时间为 190 秒。当手动使用 coalesce 进行重新分至 120 个分区时
...
你也许注意到了,今天的源码阅读计划后面有一个伪。没错,我们今天不读源码了,主要是因为我懒,想玩王者荣耀觉得前一章的 shuff write 源码的篇幅太长,害怕大家看完之后摸不着头脑。于是今天制作了 shuffle read 的图解版,顺便解决学习 spark 以来困扰我许久的几个问题。
问题
ke
...
记录一下用到的 Linux 命令
sortsort 可以用于对文本进行排序,常用的参数有:
-t : 指定分隔符,默认为空格
-n : 按照数字规则排序
-k : 按空格分隔后的排序列数
例如:
123456789101112131415# sort_test1:2:33:2:12:3:45
...