Docker Cheat Sheet
为什么要使用Docker:“有了Docker,开发人员能够借助任何工具、使用语言来构建任何应用”。Docker化的应用是完全绿色便携的,能运行在任何平台。
为什么要使用Docker:“有了Docker,开发人员能够借助任何工具、使用语言来构建任何应用”。Docker化的应用是完全绿色便携的,能运行在任何平台。
我的新玩具树莓派4B到手啦,我选择的是2GB RAM版本,刷上系统先,开干!
DeepWalk(2014’KDD),一种用于学习网络中顶点的潜在表示方法.DeepWalk提出了新的、无监督的、独立于标签分布的(捕获结构信息时不考虑标签)、捕获图结构信息的算法。算法目标是学习图的结构特征$$\mathbf{X}{\mathrm{E}} \in \mathbf{R}^{|\mathbf{V}| \times \mathbf{d}}$$,其中d是节点的潜在表示(向量形式)的维数。图结构特征可以用于任何分类算法。将$$\mathbf{X}{\mathrm{E}} \in \mathbf{R}^{|\mathbf{V}| \times \mathbf{d}}$$与简单的机器学习算法集成,还可以用来实现很多其他问题。
沪深300指数由上海和深圳证券市场中市值大、流动性好的300只股票组成,综合反映中国A股市场上市股票价格的整体表现。
恒生指数(Hang Seng Index)是以反映香港股市行情的重要指标,指数由五十只恒指成份股的市值计算出来的,代表了香港交易所所有上市公司的十二个月平均市值涵盖率的63%。
标普500是由标准普尔於1957年创立的,被广泛认为是三只股指中衡量美国经济状况最好的一项指标。标普500股票平均价格指数是由每支成分股公司的市场价值之和除以一个由标准普尔设定的除数得到的终值。简而言之就是,所有股票的市值总和除以标普除数,或总市值/标普除数。
道琼斯工业平均指数,简称道指,是三只股指中历史最为悠久也是全球最知名的股指。道指最早是在1884年由道琼斯公司的创始人查尔斯·亨利·道开始编制的一种算术平均股价指数。道指代表了华尔街日报确认的30只大盘股。不同於标普500和纳指,道指成分股的比重是根据股票价格排序的,也就是说股票价格越高的公司越能影响道指的表现。道指股票价格平均指数是入选股票的价格之和除以道指除数得到的终值。
纳斯达克指数,简称纳指,1985年开始交易,是三只股指中最为年轻的股指。纳指代表著在纳斯达克上市的最大的非金融公司,其中科技股所占比重较大,因此通常被认为是一只科技股指。该股指是根据每个公司的市场价值来设置权重,这意味著每个公司对指数的影响力是由其市场价值决定的。
Spark编程指南、API文档: https://spark.apache.org/docs/latest/#spark-overview
Scala上手教程
自然常数$e$是一个奇妙的数字,这里的$e$并不仅仅代表一个字母,它还是一个数学中的无理常数,约等于2.718281828459。
但你是否有想过,它到底怎么来的呢?为啥一个无理数却被人们称之为“自然常数”?
首先一定需要一台固定IP的服务器做转发代理,而且保证我们需要连接的目标主机能够通过SSH连接这台主机。原理在这里
2019年5月7日19:00:39 更新 目前已发现一款优秀的开源反向代理软件FRP,使用体验很稳定,已经基本抛弃ssh进行命令行操作的方式,ssh的方式很不稳定。
spark-sql或者hive-sql 很多业务场景都会有表关联的的操作,在hive中有map side join优化,对应的在spark-sql中也有map side join。spark中如果在参与join的表中存在小表,可以采用cache broadcast的方式进行优化,避免数据的shuffle,从而一定程度上可以避免数据倾斜,增加spark作业的执行速度。本文主要阐述怎么使用spark sql的map side join进行优化,及使用过程需要注意的内容,同时mark自己研究spark的过程。
Spark一个重要的功能就是将RDD持久化到内存中。当对RDD进行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并在之后对RDD的反复使用中,直接使用内存中缓存的partition。这样的话,对于一个RDD反复执行的操作场景中,就只需要对RDD计算一次即可,而不需要反复计算RDD。巧妙使用RDD持久化,甚至在某种场景下,可以将Spark应用程序性能提升10倍。对于迭代式算法和快速交互应用来说,RDD的持久化是非常必要的。
通常我们在 Termianl 下用 ssh 链接远程主机的时候,每次都需要输入一长串的用户名加主机地址,是不是觉得很麻烦?那么好吧,这个 Tips 也需能帮你解决这一烦恼,让你通过密钥甚至别名快速登录远程主机。
Tmux是一个优秀的终端复用软件,类似GNU Screen,但来自于OpenBSD,采用BSD授权。使用它最直观的好处就是,通过一个终端登录远程主机并运行tmux后,在其中可以开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机;是BSD实现的Screen替代品,相对于Screen,它更加先进:支持屏幕切分,而且具备丰富的命令行参数,使其可以灵活、动态的进行各种布局和操作。
在这篇文章中,我尝试使用Apache Spark中的Python版本Spark SQL API来写TF-IDF算法进行文本挖掘。
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,
在之前的Spark基本概念当中我已经介绍过RDD是Spark中最基本的数据结构,是一个不可变的分布式对象集合。Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》。
Spark学习笔记
Hadoop Distributed File System——HDFS,是世界上最可靠的存储系统。 HDFS是Hadoop的文件系统,是Hadoop不可缺少的一部分,其为2003年Google发表的Google文件系统GFS的克隆版。
Hadoop文件系统使用分布式文件系统设计开发,设计原则是存储较少数量的大文件而不是大量的小文件。用于存储在硬件集群上运行的非常大的文件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。
本教程使用 Ubuntu 18.04 64位 作为系统环境(Ubuntu16.04 也行,32位、64位均可),请自行安装系统。如果用的是 CentOS/RedHat 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置。
本教程基于原生最新 Hadoop 3,在 Hadoop 3.1.2 (stable) 版本下验证通过,可适合任何 Hadoop 3.x.y 版本,其他版本类似。