Fork me on GitHub
0%

记录自己读过的对提升自己有帮助的书,对学习也好,生活也好,更好的理解这个世界:)📚

  • [x] Finish my changes
  • [ ] Push my commits to GitHub
  • [ ] Open a pull request
Read more »

Deep & Cross Network(DCN)[1]是来自于 2017 年 google 和 Stanford 共同完成的一篇工作,对比同样来自 google 的工作 Wide & Deep[2],DCN 不需要特征工程来获得高阶的交叉特征,对比 FM 系列[3][4]的模型,DCN 拥有更高的计算效率并且能够提取到更高阶的交叉特征。
Read more »

别看线性回归算法原理简单,但其中也还有许多特殊的问题需要特别的手段处理。比如离群点就是一个特别的案例。
少数离群点会显著影响训练集的均值结果,对回归线的整体拟合度产生较大的影响,因此我们需要找出其中的离群点并去除它们。

Read more »

https://mp.weixin.qq.com/s/XmpvNH97k1z6P9kYA36X_Q

以我目前使用较多的Python语言编程为例,可以使用PyMysql来连接MySQL数据库并进行“query、insert、update”等操作,但是这样的方案你每次请求连接MySQL都会有一个单独的连接,这很浪费资源,特别是当请求的数量达到一定数量时会对MySQL的性能产生明显的影响。因此在实际使用中,数据库连接池技术通常被用来进行数据库连接中的资源复用。

Solution:DBUtils

DBUtils是一个允许在非线程安全数据库接口周围使用线程安全包装器的Python数据库连接池工具包。

为什么要使用Docker:“有了Docker,开发人员能够借助任何工具、使用语言来构建任何应用”。Docker化的应用是完全绿色便携的,能运行在任何平台。

Read more »

DeepWalk(2014’KDD),一种用于学习网络中顶点的潜在表示方法.DeepWalk提出了新的、无监督的、独立于标签分布的(捕获结构信息时不考虑标签)、捕获图结构信息的算法。算法目标是学习图的结构特征,其中d是节点的潜在表示(向量形式)的维数。图结构特征可以用于任何分类算法。将与简单的机器学习算法集成,还可以用来实现很多其他问题。

Read more »

简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

Linux上的安装

jdk至少需要在1.8.0_73以上版本

Read more »

沪深300指数由上海和深圳证券市场中市值大、流动性好的300只股票组成,综合反映中国A股市场上市股票价格的整体表现。
恒生指数(Hang Seng Index)是以反映香港股市行情的重要指标,指数由五十只恒指成份股的市值计算出来的,代表了香港交易所所有上市公司的十二个月平均市值涵盖率的63%。
标普500是由标准普尔於1957年创立的,被广泛认为是三只股指中衡量美国经济状况最好的一项指标。标普500股票平均价格指数是由每支成分股公司的市场价值之和除以一个由标准普尔设定的除数得到的终值。简而言之就是,所有股票的市值总和除以标普除数,或总市值/标普除数。
道琼斯工业平均指数,简称道指,是三只股指中历史最为悠久也是全球最知名的股指。道指最早是在1884年由道琼斯公司的创始人查尔斯·亨利·道开始编制的一种算术平均股价指数。道指代表了华尔街日报确认的30只大盘股。不同於标普500和纳指,道指成分股的比重是根据股票价格排序的,也就是说股票价格越高的公司越能影响道指的表现。道指股票价格平均指数是入选股票的价格之和除以道指除数得到的终值。
纳斯达克指数,简称纳指,1985年开始交易,是三只股指中最为年轻的股指。纳指代表著在纳斯达克上市的最大的非金融公司,其中科技股所占比重较大,因此通常被认为是一只科技股指。该股指是根据每个公司的市场价值来设置权重,这意味著每个公司对指数的影响力是由其市场价值决定的。

Read more »

Task:

1、Fill in the blank

2、Outfit generation given texts or images

3、 Compatibility prediction

Read more »

模型效果评估是机器学习开发中相当重要的一步,无论使用哪种最先进的state-of-the-art算法来构建假设函数并训练机器学习模型,都必须评估其性能后才能继续使用它。Evaluate模型最简单、最快捷的方法就是将数据集拆分为训练和测试集,使用训练集数据训练模型,并通过计算accuracy检查其准确性。并且在执行拆分之前不要忘记对数据集进行shuffle。但是这种方法并不能保证万无一失,简单来说,在最终确定模型时不能完全依赖这种方法。你可知道为什么?

Read more »

自然常数$e$是一个奇妙的数字,这里的$e$并不仅仅代表一个字母,它还是一个数学中的无理常数,约等于2.718281828459。
但你是否有想过,它到底怎么来的呢?为啥一个无理数却被人们称之为“自然常数”?

Read more »

首先一定需要一台固定IP的服务器做转发代理,而且保证我们需要连接的目标主机能够通过SSH连接这台主机。原理在这里

2019年5月7日19:00:39 更新 目前已发现一款优秀的开源反向代理软件FRP,使用体验很稳定,已经基本抛弃ssh进行命令行操作的方式,ssh的方式很不稳定。

Read more »

spark-sql或者hive-sql 很多业务场景都会有表关联的的操作,在hive中有map side join优化,对应的在spark-sql中也有map side join。spark中如果在参与join的表中存在小表,可以采用cache broadcast的方式进行优化,避免数据的shuffle,从而一定程度上可以避免数据倾斜,增加spark作业的执行速度。本文主要阐述怎么使用spark sql的map side join进行优化,及使用过程需要注意的内容,同时mark自己研究spark的过程。
Read more »

Spark一个重要的功能就是将RDD持久化到内存中。当对RDD进行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并在之后对RDD的反复使用中,直接使用内存中缓存的partition。这样的话,对于一个RDD反复执行的操作场景中,就只需要对RDD计算一次即可,而不需要反复计算RDD。巧妙使用RDD持久化,甚至在某种场景下,可以将Spark应用程序性能提升10倍。对于迭代式算法和快速交互应用来说,RDD的持久化是非常必要的。

Read more »