鶸鸡程序员,新世纪农民工

0%

自然常数$e$是一个奇妙的数字,这里的$e$并不仅仅代表一个字母,它还是一个数学中的无理常数,约等于2.718281828459。
但你是否有想过,它到底怎么来的呢?为啥一个无理数却被人们称之为“自然常数”?

Read more »

首先一定需要一台固定IP的服务器做转发代理,而且保证我们需要连接的目标主机能够通过SSH连接这台主机。原理在这里

2019年5月7日19:00:39 更新 目前已发现一款优秀的开源反向代理软件FRP,使用体验很稳定,已经基本抛弃ssh进行命令行操作的方式,ssh的方式很不稳定。

Read more »

spark-sql或者hive-sql 很多业务场景都会有表关联的的操作,在hive中有map side join优化,对应的在spark-sql中也有map side join。spark中如果在参与join的表中存在小表,可以采用cache broadcast的方式进行优化,避免数据的shuffle,从而一定程度上可以避免数据倾斜,增加spark作业的执行速度。本文主要阐述怎么使用spark sql的map side join进行优化,及使用过程需要注意的内容,同时mark自己研究spark的过程。

Read more »

Spark一个重要的功能就是将RDD持久化到内存中。当对RDD进行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并在之后对RDD的反复使用中,直接使用内存中缓存的partition。这样的话,对于一个RDD反复执行的操作场景中,就只需要对RDD计算一次即可,而不需要反复计算RDD。巧妙使用RDD持久化,甚至在某种场景下,可以将Spark应用程序性能提升10倍。对于迭代式算法和快速交互应用来说,RDD的持久化是非常必要的。

Read more »

通常我们在 Termianl 下用 ssh 链接远程主机的时候,每次都需要输入一长串的用户名加主机地址,是不是觉得很麻烦?那么好吧,这个 Tips 也需能帮你解决这一烦恼,让你通过密钥甚至别名快速登录远程主机。

Read more »

Tmux是一个优秀的终端复用软件,类似GNU Screen,但来自于OpenBSD,采用BSD授权。使用它最直观的好处就是,通过一个终端登录远程主机并运行tmux后,在其中可以开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机;是BSD实现的Screen替代品,相对于Screen,它更加先进:支持屏幕切分,而且具备丰富的命令行参数,使其可以灵活、动态的进行各种布局和操作。

Read more »

Introduction

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集
在之前的Spark基本概念当中我已经介绍过RDD是Spark中最基本的数据结构,是一个不可变的分布式对象集合。Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》。

Read more »

Hadoop Distributed File System——HDFS,是世界上最可靠的存储系统。 HDFS是Hadoop的文件系统,是Hadoop不可缺少的一部分,其为2003年Google发表的Google文件系统GFS的克隆版。

Hadoop文件系统使用分布式文件系统设计开发,设计原则是存储较少数量的大文件而不是大量的小文件。用于存储在硬件集群上运行的非常大的文件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。

Read more »

本教程使用 Ubuntu 18.04 64位 作为系统环境(Ubuntu16.04 也行,32位、64位均可),请自行安装系统。如果用的是 CentOS/RedHat 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置
本教程基于原生最新 Hadoop 3,在 Hadoop 3.1.2 (stable) 版本下验证通过,可适合任何 Hadoop 3.x.y 版本,其他版本类似。

Read more »

Wookai/paper-tips-and-tricks
macOS下用sublime写LaTeX并配置自动补全功能
Mac OS 配置 LaTeX 环境
macOS + Sublime Text + Latex 环境配置
Chinese|overleaf
CTEX 宏集手册

C++ 提供了以下两种类型的字符串表示形式:

  • C 风格字符串
  • C++ 引入的 string 类类型
Read more »

本帖主要收集图神经网络学习资源,加上自己的一些理解。

GNN综述:A Comprehensive Survey on Graph Neural Networks ,
图神经网络方法与应用综述:Graph Neural Networks: A Review of Methods and Applications
一文读懂图卷积GCN: https://mp.weixin.qq.com/s/X4kWloqPb2j4AuS1Q9N4PA

现在运行深度学习的程序基本需要比较高配置的GPU服务器,所以一般会通过自己的电脑远程访问服务器。但是服务器上没有浏览器,我想在服务器上运行Jupyter Notebook该怎么访问呢?

Read more »

《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》1论文阅读笔记。说来惭愧,这篇论文去年4月份就曾在技术圈里刷屏,号称横扫序列模型中如RNN、GRU、LSTM等基本模型,当时第一时间就听说了,但是一直没有弄懂技术原理,这一年来的面试中,有两次对方提到了CNN用来序列建模的优点,然而我却没有深入去理解它,今天就来攻克它。

Read more »

前言

AutoML是指尽量不通过人来设定超参数,而是使用某种学习机制,来调节这些超参数。这些学习机制包括传统的贝叶斯优化,多臂老虎机(multi-armed bandit),进化算法,还有比较新的强化学习。

我将AutoML分为传统AutoML ,自动调节传统的机器学习算法的参数,比如随机森林,我们来调节它的max_depth, num_trees, criterion等参数。 还有一类AutoML,则专注深度学习。这类AutoML,不妨称之为深度AutoML ,与传统AutoML的差别是,现阶段深度AutoML,会将神经网络的超参数分为两类,一类是与训练有关的超参数,比如learning rate, regularization, momentum等;还有一类超参数,则可以总结为网络结构。对网络结构的超参数自动调节,也叫 Neural architecture search (nas) 。而针对训练的超参数,也是传统AutoML的自动调节,叫 Hyperparameter optimization (ho)

Read more »