Skip to the content.

自学问题集锦

21 Dec 2021

什么是KL散度?

什么是算术平均、几何平均、调和平均?几何平均相比算数平均有什么优点

不同的激活函数:Sigmoid、tanh、ReLU、ReLU6及变体P-R-Leaky、ELU、SELU、Swish、Mish、Maxout、hard-sigmoid、hard-swish、leaky relu(LRELU)、prelu、softplus

平衡二叉树你会实现吗?

离线auc提升与线上指标提升的比例关系?

目前的想法是1:10的关系,比如离线提升0.2pp,线上相关指标提升2%

介绍下dropout?

介绍下batch normalization? layernorm?

训练数据有多少?qps有多少?

tanh(双曲正切)公式怎么写? sinh(双曲正弦)cosh(双曲余弦)呢 sigmoid呢

讲一下batch normalization

lstm公式推导一下

rnn反向传播的公式推导一下

常见的几种优化方法?

参数的三种更新方式:batch mini-batch sgd 的区别是什么?

attentional transformer是啥?

a bottleneck structure是啥

hierarchical softmax和adaptive softmax

weight normalization是啥?

Kaiming initialization?

X, Y独立同分布 ~U(0, s),求 E(max(X, Y))?

X, Y独立同分布 ~N(e, d^2),求 E(max(X, Y))?

多模态学习?

RNN如何做反向传播

几种常见的优化方式:momentum adagrad adam等?

几个数据?

dau 总共6000w,br 2000w,in 1000w, spa 1300w;时长 br/in 60min,spa 50min 训练数据 每天84条训练数 evr:0.45 fpr:0.32 ctr:0.1 ltr:0.05 qps 高峰1.6w,低峰期4k 精排模型dense参数有1300w个,sparse slots总共有223个,加起来有5128维

雅可比矩阵

多个y,多个x,分别两两求偏导,横坐标对应y,纵坐标对应x

交叉熵怎么理解?

互信息的公式:

交叉熵和互信息

Z-score Normalization 是啥?

一篇讲逻辑回归的博客:【机器学习】逻辑回归

dropout不管是训练时对激活值除以p,还是预测时对W乘以p,本质上都是对激活值进行处理。。

根据史塔西的文章先入为主:将先验知识注入推荐模型来解释双塔粗排的一些网络设计

连续值按照分位数分桶也可以叫做:等频归一化

经典对比loss里为啥要设置margin?

Metric Learning (http://contrib.scikit-learn.org/metric-learn/introduction.html)

非关系型数据库包括哪四种?key-value store, graph store, column store, document store

垂直扩展(vertical scaling)是指服务器数量不变,但是CPU和内存增加;水平扩展(horizontal scaling)是指增加服务器数量

负载均衡器(load balancer)不仅支持了后方server的水平扩展,也保护了server不与公网直接通信

数据库的主(master)从(slave)结构:主节点负责写入,从节点备份主节点数据并负责读出

在server和db之间增加缓存(cache)能提升系统性能,但有几点需要注意:

cdn提供的是静态文件:图片,视频,css,js脚本等

server为了支持水平扩展,最好将user session相关的state数据存放在一个单独的共享的db中,将server本身搞成stateless的

时间的不同级别

一致性哈希:为的是server数量增加或减少时,减少不必要的key remapping

CAP定理

特征选择方法主要分哪几类?

xtr校准综述型博文

如何从KL散度出发推导出交叉熵loss?