Docker Cheat Sheet

Posted on 2019-09-18 Edited on 2021-07-23

为什么要使用Docker：“有了Docker，开发人员能够借助任何工具、使用语言来构建任何应用”。Docker化的应用是完全绿色便携的，能运行在任何平台。

树莓派4B 玩转指南

Posted on 2019-09-10 Edited on 2021-07-23 In 操作系统 , Raspbian

我的新玩具树莓派4B到手啦，我选择的是2GB RAM版本，刷上系统先，开干!

Smart Beta

Posted on 2019-08-21 Edited on 2021-07-23

DeepWalk

Posted on 2019-08-20 Edited on 2021-07-23

DeepWalk(2014’KDD)，一种用于学习网络中顶点的潜在表示方法.DeepWalk提出了新的、无监督的、独立于标签分布的（捕获结构信息时不考虑标签）、捕获图结构信息的算法。算法目标是学习图的结构特征$$\mathbf{X}{\mathrm{E}} \in \mathbf{R}^{|\mathbf{V}| \times \mathbf{d}}$$，其中d是节点的潜在表示（向量形式）的维数。图结构特征可以用于任何分类算法。将$$\mathbf{X}{\mathrm{E}} \in \mathbf{R}^{|\mathbf{V}| \times \mathbf{d}}$$与简单的机器学习算法集成，还可以用来实现很多其他问题。

Elasticsearch

Posted on 2019-08-14 Edited on 2021-07-23

简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

Linux上的安装

jdk至少需要在1.8.0_73以上版本

machine learning in finance

Posted on 2019-08-02 Edited on 2021-07-23

沪深300指数由上海和深圳证券市场中市值大、流动性好的300只股票组成，综合反映中国A股市场上市股票价格的整体表现。
恒生指数(Hang Seng Index)是以反映香港股市行情的重要指标，指数由五十只恒指成份股的市值计算出来的，代表了香港交易所所有上市公司的十二个月平均市值涵盖率的63%。
标普500是由标准普尔於1957年创立的，被广泛认为是三只股指中衡量美国经济状况最好的一项指标。标普500股票平均价格指数是由每支成分股公司的市场价值之和除以一个由标准普尔设定的除数得到的终值。简而言之就是，所有股票的市值总和除以标普除数，或总市值/标普除数。
道琼斯工业平均指数，简称道指，是三只股指中历史最为悠久也是全球最知名的股指。道指最早是在1884年由道琼斯公司的创始人查尔斯·亨利·道开始编制的一种算术平均股价指数。道指代表了华尔街日报确认的30只大盘股。不同於标普500和纳指，道指成分股的比重是根据股票价格排序的，也就是说股票价格越高的公司越能影响道指的表现。道指股票价格平均指数是入选股票的价格之和除以道指除数得到的终值。
纳斯达克指数，简称纳指，1985年开始交易，是三只股指中最为年轻的股指。纳指代表著在纳斯达克上市的最大的非金融公司，其中科技股所占比重较大，因此通常被认为是一只科技股指。该股指是根据每个公司的市场价值来设置权重，这意味著每个公司对指数的影响力是由其市场价值决定的。

Outfits dataset

Posted on 2019-07-25 Edited on 2021-07-23

Task：

1、Fill in the blank

2、Outfit generation given texts or images

3、 Compatibility prediction

Spark编程指南

Posted on 2019-05-24 Edited on 2021-07-23 In 大数据

Spark编程指南、API文档： https://spark.apache.org/docs/latest/#spark-overview

Scala刚刚入门的学习笔记

Posted on 2019-05-21 Edited on 2021-07-23 In 大数据

Scala上手教程

自然常数e到底自然在哪？

Posted on 2019-05-10 Edited on 2021-07-23 In 数学

自然常数$e$是一个奇妙的数字，这里的$e$并不仅仅代表一个字母，它还是一个数学中的无理常数，约等于2.718281828459。
但你是否有想过，它到底怎么来的呢？为啥一个无理数却被人们称之为“自然常数”？

如何通过反向代理远程访问内网主机

Posted on 2019-05-07 Edited on 2021-07-23

首先一定需要一台固定IP的服务器做转发代理，而且保证我们需要连接的目标主机能够通过SSH连接这台主机。原理在这里

2019年5月7日19:00:39 更新目前已发现一款优秀的开源反向代理软件FRP，使用体验很稳定，已经基本抛弃ssh进行命令行操作的方式，ssh的方式很不稳定。

Spark学习笔记之Broadcast Join性能调优

Posted on 2019-05-07 Edited on 2021-07-23 In 大数据

spark-sql或者hive-sql 很多业务场景都会有表关联的的操作，在hive中有map side join优化，对应的在spark-sql中也有map side join。spark中如果在参与join的表中存在小表，可以采用cache broadcast的方式进行优化，避免数据的shuffle，从而一定程度上可以避免数据倾斜，增加spark作业的执行速度。本文主要阐述怎么使用spark sql的map side join进行优化，及使用过程需要注意的内容，同时mark自己研究spark的过程。

Cache() or not Cache() in Spark, 这是一个价值百万的问题

Posted on 2019-05-06 Edited on 2021-07-23 In 大数据

Spark一个重要的功能就是将RDD持久化到内存中。当对RDD进行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并在之后对RDD的反复使用中，直接使用内存中缓存的partition。这样的话，对于一个RDD反复执行的操作场景中，就只需要对RDD计算一次即可，而不需要反复计算RDD。巧妙使用RDD持久化,甚至在某种场景下，可以将Spark应用程序性能提升10倍。对于迭代式算法和快速交互应用来说，RDD的持久化是非常必要的。

配置ssh密钥登录与别名登录

Posted on 2019-05-04 Edited on 2021-07-23

通常我们在 Termianl 下用 ssh 链接远程主机的时候，每次都需要输入一长串的用户名加主机地址，是不是觉得很麻烦？那么好吧，这个 Tips 也需能帮你解决这一烦恼，让你通过密钥甚至别名快速登录远程主机。

终端复用神器Tmux

Posted on 2019-05-04 Edited on 2021-07-23

Tmux是一个优秀的终端复用软件，类似GNU Screen，但来自于OpenBSD，采用BSD授权。使用它最直观的好处就是，通过一个终端登录远程主机并运行tmux后，在其中可以开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机；是BSD实现的Screen替代品，相对于Screen，它更加先进：支持屏幕切分，而且具备丰富的命令行参数，使其可以灵活、动态的进行各种布局和操作。

利用Spark计算TF-IDF

Posted on 2019-04-30 Edited on 2021-07-23 In 大数据

在这篇文章中，我尝试使用Apache Spark中的Python版本Spark SQL API来写TF-IDF算法进行文本挖掘。

Spark入门笔记—编程操作对象RDD与DataFrame(PySpark版)

Posted on 2019-04-29 Edited on 2021-07-23 In 大数据

Introduction

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，
在之前的Spark基本概念当中我已经介绍过RDD是Spark中最基本的数据结构，是一个不可变的分布式对象集合。Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》。

Spark入门笔记—基本概念与单机环境配置

Posted on 2019-04-25 Edited on 2021-07-23 In 大数据

Spark学习笔记

HDFS学习笔记

Posted on 2019-04-25 Edited on 2021-07-23 In 大数据

Hadoop Distributed File System——HDFS，是世界上最可靠的存储系统。 HDFS是Hadoop的文件系统，是Hadoop不可缺少的一部分，其为2003年Google发表的Google文件系统GFS的克隆版。

Hadoop文件系统使用分布式文件系统设计开发，设计原则是存储较少数量的大文件而不是大量的小文件。用于存储在硬件集群上运行的非常大的文件。不像其他的分布式系统，HDFS是高度容错以及使用低成本的硬件设计。

Ubuntu18.04下Hadoop 3的安装与配置（伪分布式环境）

Posted on 2019-04-25 Edited on 2021-07-23 In 大数据

本教程使用 Ubuntu 18.04 64位作为系统环境（Ubuntu16.04 也行，32位、64位均可），请自行安装系统。如果用的是 CentOS/RedHat 系统，请查看相应的CentOS安装Hadoop教程_单机伪分布式配置。
本教程基于原生最新 Hadoop 3，在 Hadoop 3.1.2 (stable) 版本下验证通过，可适合任何 Hadoop 3.x.y 版本，其他版本类似。