Fork me on GitHub
0%

Introduction

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集
在之前的Spark基本概念当中我已经介绍过RDD是Spark中最基本的数据结构,是一个不可变的分布式对象集合。Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》。

Hadoop Distributed File System——HDFS,是世界上最可靠的存储系统。 HDFS是Hadoop的文件系统,是Hadoop不可缺少的一部分,其为2003年Google发表的Google文件系统GFS的克隆版。

Hadoop文件系统使用分布式文件系统设计开发,设计原则是存储较少数量的大文件而不是大量的小文件。用于存储在硬件集群上运行的非常大的文件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。

本教程使用 Ubuntu 18.04 64位 作为系统环境(Ubuntu16.04 也行,32位、64位均可),请自行安装系统。如果用的是 CentOS/RedHat 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置
本教程基于原生最新 Hadoop 3,在 Hadoop 3.1.2 (stable) 版本下验证通过,可适合任何 Hadoop 3.x.y 版本,其他版本类似。

Wookai/paper-tips-and-tricks

一个数组A中存有N(N&gt0)个整数,在不允许使用另外数组的前提下,将每个整数循环向右移M(M>=0)个位置,即将A中的数据由(A0 A1 ……AN-1 )变换为(AN-M …… AN-1 A0 A1 ……AN-M-1 )(最后M个数循环移至最前面的M个位置)。如果需要考虑程序移动数据的次数尽量少,要如何设计移动的方法?要求时间复杂度为O(N),且只允许使用两个附加变量

问题描述:

  • 给定一个整数数组a,长度为N,元素取值范围为[1,N]。
  • 统计各个元素出现的次数,要求时间复杂度为O(N),空间复杂度为O(1)。
  • 可以改变原来数组结构。

C++ 提供了以下两种类型的字符串表示形式:

  • C 风格字符串
  • C++ 引入的 string 类类型

题目描述

在URL字符串中,如果百分号%后面跟了两个十六进制数字,那么它表示相应ASCII值所对应的字符,如%2F表示'/'%32表示'2'。%编码还可以进行嵌套,如%%32F可以解码成%2F,再进一步解码成/。如果没有任何百分号后面跟的是两个十六进制数字则无法再进行解码。

现在有一系列的URL,希望你帮忙进行百分号解码,直到无法再解码为止。

本帖主要收集图神经网络学习资源,加上自己的一些理解。

GNN综述:A Comprehensive Survey on Graph Neural Networks ,
图神经网络方法与应用综述:Graph Neural Networks: A Review of Methods and Applications

Suppose an array sorted in ascending order is rotated at some pivot unknown to you beforehand.

(i.e., [0,1,2,4,5,6,7] might become [4,5,6,7,0,1,2]).

You are given a target value to search. If found in the array return its index, otherwise return -1.

You may assume no duplicate exists in the array.

Your algorithm’s runtime complexity must be in the order of O(log n).

Example 1:

Input: nums = [4,5,6,7,0,1,2], target = 0
Output: 4

Example 2:

Input: nums = [4,5,6,7,0,1,2], target = 3
Output: -1

题目描述:
给定一个折线段,其由一个数组表示;例如数组[5,3,1,4]表示由[0,5] -> [1,3] -> [2,1] -> [3,4]构成的折线段。和一个整数,表示与X轴平行的直线;例如,2表示Y=2的直线,求折线段与直线的交点数,如果无穷的交点数用-1表示

输入:
[5,3,1,4], 2
输出:
2

问题描述
36进制由0-9,a-z,共36个字符表示,最小为’0’。 ‘0’、’9’对应十进制的0、9,‘a’、’z’对应十进制的10、35

例如:

‘1b’ 换算成10进制等于 1 36^1 + 11 36^0 = 36 + 11 = 47
要求按照加法规则计算出任意两个36进制正整数的和
如:按照加法规则,计算’1b’ + ‘2x’ = ‘48’

要求:
不允许把36进制数字整体转为10进制数字,计算出10进制数字的相加结果再转回为36进制

现在运行深度学习的程序基本需要比较高配置的GPU服务器,所以一般会通过自己的电脑远程访问服务器。但是服务器上没有浏览器,我想在服务器上运行Jupyter Notebook该怎么访问呢?

牛客网作为近来应届学生招聘的新贵网站,大大小小许多公司都将其作为自己的校招在线笔试平台,而作为广大编程大牛刷题的社区LeetCode,两者代码提交的形式则有着很大的不同。

《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》1论文阅读笔记。说来惭愧,这篇论文去年4月份就曾在技术圈里刷屏,号称横扫序列模型中如RNN、GRU、LSTM等基本模型,当时第一时间就听说了,但是一直没有弄懂技术原理,这一年来的面试中,有两次对方提到了CNN用来序列建模的优点,然而我却没有深入去理解它,今天就来攻克它。

前言

AutoML是指尽量不通过人来设定超参数,而是使用某种学习机制,来调节这些超参数。这些学习机制包括传统的贝叶斯优化,多臂老虎机(multi-armed bandit),进化算法,还有比较新的强化学习。

我将AutoML分为传统AutoML ,自动调节传统的机器学习算法的参数,比如随机森林,我们来调节它的max_depth, num_trees, criterion等参数。 还有一类AutoML,则专注深度学习。这类AutoML,不妨称之为深度AutoML ,与传统AutoML的差别是,现阶段深度AutoML,会将神经网络的超参数分为两类,一类是与训练有关的超参数,比如learning rate, regularization, momentum等;还有一类超参数,则可以总结为网络结构。对网络结构的超参数自动调节,也叫 Neural architecture search (nas) 。而针对训练的超参数,也是传统AutoML的自动调节,叫 Hyperparameter optimization (ho)