Fork me on GitHub
0%

记录自己读过的对提升自己有帮助的书,对学习也好,生活也好,更好的理解这个世界:)📚

  • [x] Finish my changes
  • [ ] Push my commits to GitHub
  • [ ] Open a pull request

Deep & Cross Network(DCN)[1]是来自于 2017 年 google 和 Stanford 共同完成的一篇工作,对比同样来自 google 的工作 Wide & Deep[2],DCN 不需要特征工程来获得高阶的交叉特征,对比 FM 系列[3][4]的模型,DCN 拥有更高的计算效率并且能够提取到更高阶的交叉特征。

为什么要使用Docker:“有了Docker,开发人员能够借助任何工具、使用语言来构建任何应用”。Docker化的应用是完全绿色便携的,能运行在任何平台。

我的新玩具树莓派4B到手啦,我选择的是2GB RAM版本,刷上系统先,开干!

DeepWalk(2014’KDD),一种用于学习网络中顶点的潜在表示方法.DeepWalk提出了新的、无监督的、独立于标签分布的(捕获结构信息时不考虑标签)、捕获图结构信息的算法。算法目标是学习图的结构特征,其中d是节点的潜在表示(向量形式)的维数。图结构特征可以用于任何分类算法。将与简单的机器学习算法集成,还可以用来实现很多其他问题。

简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

Linux上的安装

jdk至少需要在1.8.0_73以上版本

沪深300指数由上海和深圳证券市场中市值大、流动性好的300只股票组成,综合反映中国A股市场上市股票价格的整体表现。
恒生指数(Hang Seng Index)是以反映香港股市行情的重要指标,指数由五十只恒指成份股的市值计算出来的,代表了香港交易所所有上市公司的十二个月平均市值涵盖率的63%。
标普500是由标准普尔於1957年创立的,被广泛认为是三只股指中衡量美国经济状况最好的一项指标。标普500股票平均价格指数是由每支成分股公司的市场价值之和除以一个由标准普尔设定的除数得到的终值。简而言之就是,所有股票的市值总和除以标普除数,或总市值/标普除数。
道琼斯工业平均指数,简称道指,是三只股指中历史最为悠久也是全球最知名的股指。道指最早是在1884年由道琼斯公司的创始人查尔斯·亨利·道开始编制的一种算术平均股价指数。道指代表了华尔街日报确认的30只大盘股。不同於标普500和纳指,道指成分股的比重是根据股票价格排序的,也就是说股票价格越高的公司越能影响道指的表现。道指股票价格平均指数是入选股票的价格之和除以道指除数得到的终值。
纳斯达克指数,简称纳指,1985年开始交易,是三只股指中最为年轻的股指。纳指代表著在纳斯达克上市的最大的非金融公司,其中科技股所占比重较大,因此通常被认为是一只科技股指。该股指是根据每个公司的市场价值来设置权重,这意味著每个公司对指数的影响力是由其市场价值决定的。

Task:

1、Fill in the blank

2、Outfit generation given texts or images

3、 Compatibility prediction

模型效果评估是机器学习开发中相当重要的一步,无论使用哪种最先进的state-of-the-art算法来构建假设函数并训练机器学习模型,都必须评估其性能后才能继续使用它。Evaluate模型最简单、最快捷的方法就是将数据集拆分为训练和测试集,使用训练集数据训练模型,并通过计算accuracy检查其准确性。并且在执行拆分之前不要忘记对数据集进行shuffle。但是这种方法并不能保证万无一失,简单来说,在最终确定模型时不能完全依赖这种方法。你可知道为什么?

自然常数$e$是一个奇妙的数字,这里的$e$并不仅仅代表一个字母,它还是一个数学中的无理常数,约等于2.718281828459。
但你是否有想过,它到底怎么来的呢?为啥一个无理数却被人们称之为“自然常数”?

首先一定需要一台固定IP的服务器做转发代理,而且保证我们需要连接的目标主机能够通过SSH连接这台主机。原理在这里

2019年5月7日19:00:39 更新 目前已发现一款优秀的开源反向代理软件FRP,使用体验很稳定,已经基本抛弃ssh进行命令行操作的方式,ssh的方式很不稳定。

spark-sql或者hive-sql 很多业务场景都会有表关联的的操作,在hive中有map side join优化,对应的在spark-sql中也有map side join。spark中如果在参与join的表中存在小表,可以采用cache broadcast的方式进行优化,避免数据的shuffle,从而一定程度上可以避免数据倾斜,增加spark作业的执行速度。本文主要阐述怎么使用spark sql的map side join进行优化,及使用过程需要注意的内容,同时mark自己研究spark的过程。

Spark一个重要的功能就是将RDD持久化到内存中。当对RDD进行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并在之后对RDD的反复使用中,直接使用内存中缓存的partition。这样的话,对于一个RDD反复执行的操作场景中,就只需要对RDD计算一次即可,而不需要反复计算RDD。巧妙使用RDD持久化,甚至在某种场景下,可以将Spark应用程序性能提升10倍。对于迭代式算法和快速交互应用来说,RDD的持久化是非常必要的。

通常我们在 Termianl 下用 ssh 链接远程主机的时候,每次都需要输入一长串的用户名加主机地址,是不是觉得很麻烦?那么好吧,这个 Tips 也需能帮你解决这一烦恼,让你通过密钥甚至别名快速登录远程主机。

Tmux是一个优秀的终端复用软件,类似GNU Screen,但来自于OpenBSD,采用BSD授权。使用它最直观的好处就是,通过一个终端登录远程主机并运行tmux后,在其中可以开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机;是BSD实现的Screen替代品,相对于Screen,它更加先进:支持屏幕切分,而且具备丰富的命令行参数,使其可以灵活、动态的进行各种布局和操作。

在这篇文章中,我尝试使用Apache Spark中的Python版本Spark SQL API来写TF-IDF算法进行文本挖掘。