面试官如何判断面试者的机器学习水平?

或者,你遇到过的水平最高的机器学习面试是什么?
关注者
4,719
被浏览
301,963

17 个回答

收录于编辑推荐 ·

不邀自来:)

首先这个问题问的很广。做机器学习方向很多,有些公司更偏重于数据挖掘,而有些更倾向于深度学习。同理,相对应的岗位有些偏重理论也有些偏重实践。这些因素叠加造成了机器学习相关的岗位分布广,如数据分析师,算法工程师,机器学习科学家等,很难一概而论

大概从实习生的时候就开始根着老板招聘面试机器学习方向的候选人,到现在前前后后大概也参与了20个左右机器学习求职者的技术面试。其中有在读的研究生(实习生岗位),也有已经工作了多年或者学术背景深厚的名校博士(相对高级的“科学家”岗位)。

不谈具体岗位的前提下,我想回答以下几个问题: 1.为什么要避免学科性的偏见 2. 如何测试面试者的知识广度 3. 怎样测试面试者的知识深度 4. 为何需要确认基本的编程和数据分析能力 5. 怎么提高机器学习面试成功率

-------------------------------------------------------------------------------------

1. 避免学科间的偏见与歧视

机器学习作为一个交叉广度大,各学科融合深的学科,各种背景的面试者都有。我建议一定不要预设立场,无论是数学、统计、物理、计算机,或是其他学科的面试者都有独特的知识储备。比如机器学习其实和统计学习有很大部分是重叠的,甚至和优化(如运筹学)、数学(线代等)也有很多相关的地方。而不同领域的人对于同一件事情的描述可能是相似但不相同的,甚至连叫法都不同。举个简单的例子,统计学将变量叫做predictors而机器学习倾向于将其叫做feature(特征)。我听说过很多面试官就因为对方不能完全的使用他能听懂的术语就拒掉了候选人,我觉得这个是愚蠢的

以我们团队为例,我的老板是统计学博士和教授(偏计量),而我是纯粹的计算机科学出身。他喜欢用R来建模而我只擅长Python和C++。但正是这种差异性让我们可以更好的合作,他在无监督学习中很喜欢用各种密度分析(density estimation)或者对分布直接进行拟合,而我可以给他介绍很多机器学习方向比较流行的算法,比如Isolation Forests。同理,Python和R都有各自擅长的领域,比如Python做时序分析的难度就远远大于R,因为R有非常成熟的package。

因此,我们不要因为领域不同,叫法不同,编程语言不同,或者模型的解释思路不同就轻易的否定一个面试者。长此以往,我们的思路会越来越窄,而一定程度的包容能拓展思路。

2. 通过广度测试划定面试者的知识面

机器学习的项目一般都牵扯数据处理,建模,评估,可视化,和部署上线等一系列流程我们希望面试者对于每个步骤都有最基本的了解。因为其范围很广,我们希望首先在短时间内了解一个面试者的知识范围。有很多基本但经典的问题可以用于了解面试者的素质,给出一些例子:

  • 数据处理:如何处理缺失数据(missing value)? 各种处理方法有什么利弊?
  • 数据处理:如何将描述变量(categorical variables)转为连续变量(continuous variables)?
    • 如何处理有序变量?
    • 如何处理无序变量?
  • 数据处理:如何进行选择特征选择?如何进行数据压缩?
    • 特征选择:包裹式,过滤式,嵌入式
    • 数据压缩:主成分分析,自编码等
  • 模型解释: 试解释什么是欠拟合与过拟合?如何应对这两种情况?
  • 模型解释: 什么是偏差与方差分解(Bias Variance Decomposition)?与欠拟合和过拟合有什么联系?
  • 评估模型一般有什么手段?
    • 分类模型评估方法?
    • 回归问题评估方法?
    • 数据不均衡的评估方法?
  • 深度学习是否比其他学习模型都好?为什么?

以如何处理缺失数据为例,可能的回答有:1. 分析缺失比例决定是否移除 2. 用均值,众数,回归代替 3. 用0代替等。比如深度学习是否比别的模型好,我们就期待面试者能说“分情况讨论”,若是能提到“没有免费的午餐定理”更是加分。在这个阶段,我们不会深入追问,仅想对面试人的知识范围有一个了解。

这类问题的共性就是无论你是在校学生还是资深科学家都应该有一个基本的水准在,不过没有必要百分之百的回答正确,因为本身很多答案都没有标准答案。大部分时候,这个环节我们对于是否录用这个人就已经有了答案。如果面试者答错或者不知道其中百分之八十的概念,录取的概率就很低了。

3. 根据岗位和求职者背景进行深入挖掘

在经过上一阶段以后,我们已经对求职者的素养有了大概的判断,下一步就需要进行深入了解,一般根据两点进行追问:

  • 面试者的背景: 如果有与岗位特别相关的工作经历,会深入询问。如果有高引用了的文章,也会让他讲一下他的研究。
  • 所面试的岗位: 如果没有与岗位特别相关的经历,会根据岗位需求进行询问。

进入这个环节其实就已经没有模板了。假设我们现在要为保险公司招聘一个机器学习工程师来自动化"骗保检测",我们的求职者是一位计算机系刚毕业的硕士生。那我们可能深入询问的话题包括:

  • 在只有少量的有标签数据的情况下,如何构建一个反保险欺诈系统?
  • 如果面试者回答先用监督学习来做,那么我们可能问:
    • 这种情况下数据是不均衡的,你是采用过采样还是欠采样?如何调整代价函数和阈值?
    • 如果面试者提到了集成学习,那么也会追问一下问什么集成学习适合数据不平衡。
  • 如果面试者回答用无监督学习,那我们可能会问:
    • 比如使用One-class SVM?那么我们可能会追问一下SVM相关的问题,比如什么是最大间隔分类器啊什么是Kernel,如何选择Kernel等。
    • 为什么K-Means不适合异常值检测?K-Means和GMM是什么关系?是否可以用FMM来直接拟合异常值。
    • 如何可以得到无监督学习中的分类规则?

这一类问题的特点是随机应变,一般都是在一个方向上深入。比如其他答案提到的L1和L2正则化,我们可能希望面试者在白板上画图介绍为什么L1可以得到稀疏解,以及和嵌入式特征选择有什么联系。这一类问题我们不期待求职者完全答对或者讲得清楚无误,我们同时也想观察其在压力和追问下的心理素质因为整个过程中肯定会有一些知识盲点,我们会尽量避免尴尬的气氛,所以作为求职者不必过分紧张。同时,通过和面试者一起了解他/她曾做过的项目,可以看出其对于这个专业的兴趣 -- 兴趣是很难演出来的。

在这个环节,如果一个面试者可以有能力进入深入交谈,甚至提到一些我们从来没想过的思路,都是加分的表现。

4. 基本的编程能力和数据挖掘能力

机器学习岗位,不管你是统计出身还是计算机出身,都避不开建模的过程,因此基本的编程能力是必须的。一般对于数学或者统计学出身的面试者,我们会额外给出一个简单的小程序测试。这种小程序可能简单如将读取数据后并保存为矩阵。这倒不是因为我们喜欢没事找事,而是因为机器学习太容易成为纸上谈兵,而从业者缺乏最基本的编程能力。

相似的,我们也希望面试者谈谈从模型中可以得到什么结论。我们曾把Kaggle上泰坦尼克的那个数据集处理过以后,让面试者谈谈幸存率到底和什么有关,如何分析。同样的,我们不追求完美答案,只是希望看到求职者可以解释一些简单的模型结果,从中攫取商业价值。

5. 让面试者有所收获 & 如何准备机器学习面试

面试不该是一场单纯的考试,在参加面试的过程中,也是一个学习过程。抛砖引玉,对于机器学习的岗位面试我有几点小建议:

5.1. 根据岗位,准备一份项目策划书。这个乍听下来有点虚,但我曾无数次使用这个小技巧得到良好的面试反馈和机会。假设你今天面试的岗位是我提到的保险公司的反诈骗组,那么如果你可以写一个如何使用机器学习进行反诈骗的项目策划书。这个过程对于面试者也是一个练习: a. 阅读论文和新闻收集材料的能力 b. 总结分析的能力 c. 总结的能力。

以我曾经面试过的一个人力资源相关的岗位为例,我准备了一份如何用机器学习来进行员工离职预测的策划书(中间省略掉了几页并马赛克处理了敏感的地方):

在策划书中,你可以分析项目需求,提出相关解法,并建议后续计划和列出相关文献。这样的行为不仅可以让雇主看到你的诚意,并看到你的的领域知识和独立分析问题能力

在适当的时机(比如开始面试的时候或者谈到岗位职责的时候),你拿出准备好的策划书,开始谈你的思路。这种做法我曾做过几次,效果都很惊艳,因为反被动为主动,从被考察变成了讲解你所了解的知识。作为一个面试官,如果被面试者能做到这个程度,我会在内心对录取他比较有信心。

5.2. 真诚并且实事求是

大家都是理工科出身,行家一出手便知有没有。在这种技术性比较强的学科,完全没有必要假装自己了解一个知识点。同理心告诉我们,大部分人都有知识盲区,我们不期待完美的回答。当你真的不知道一个问题的答案时候,真诚的希望对方能讲得更明白或者承认自己不太了解。

如果你假装自己很了解一个不明白的领域,我们一般会问的更深入。你成功的引起了我的注意,那个时候就真的收不了场了。相似的,简历上请真的不要夸大其词的描述自己的经历。我见过很多人只用过Naive Bayes就在简历上号称自己是机器学习专家,我现在还记得他被面试到面红耳赤的样子。在这个浮躁的年代,对于高薪的机器学习岗位,希望大家都能守住最起码的诚信底线

5.3. 确保自己对基本的概念有所了解

再一次,保证对基本知识的了解(有基本的广度)是对面试者自己和面试官的尊重。什么程度就算基本了解呢?我的感受是:

  • 对基本的数据处理方法有所了解
  • 对基本的分类器模型有所了解并有所使用(调包),大概知道什么情况使用什么算法较好
  • 对基本的评估方法有所掌握,知道常见评估方法的优劣势
  • 有基本的编程能力,能够独立的完成简单的数据分析项目
  • 有基本的数据挖掘能力,可以对模型进行调参并归纳发现

其中每一条都说来简单,但都是血与泪的过程,请勿操之过急。如何就能保证自己有了足够的基础知识呢?我觉得能基本看懂周志华老师《机器学习》的前十章,并相对熟练的使用Sklearn中基础的API进行建模就可以了。也请勿矫枉过正,如果你面试的岗位不是理论性科学家岗位,不要和数学推导死磕。这也是为什么我说写一个项目策划书很有帮助,在查阅文献和总结的过程中,你对想要面试的领域有了更加深刻的了解,有助于提高信心和知识。

5.4. 享受面试

请不要把技术面试当做一场噩梦,或是一个难关。作为一个冉冉升起的新领域,我们大家都是这么一路摸爬滚打过来的,至少我自己是很理解这一路的不容易。

因为机器学习领域的人才稀缺,一般而言你的面试官的时间都是很宝贵的,即使你最终没有通过面试,请抓住机会从他们身上有所学习的机会。从我的角度来看,你不仅可以借此发现自己知识点上的缺失,也可以听到在特定领域的流行的算法和模型,这些都是从书上很难学到的。如果你为了准备面试还阅读了相关领域的论文和总结,那我想来面试这件事已经远远超过了你是否被录取的意义。

路漫漫其修远兮,吾将上下而求索。与君共勉:)

作为一名新晋菜鸟面试官,最近替部门面了3、40个人(大多来自国内top5学校,包括校招社招),小小总结下我的相人之术,希望能帮上大家


/* 先插个话,本题的答主中,有我非常膜拜的真大神,也有掉书袋的教条主义者,对后者,我有一言相劝

面试官的水平(而非面试者)决定了面试的上限,所以当面试者水平超过你时,承认被碾压、虚心接受就好,并适时向对方学习,而不是拿那些条条框框的应试题来恶心人

*/

----------------------

面试别人时,我主要遵循『两原则』『三方面』

『两原则』指:

  1. 绝不网上现搜应试题(一不尊重面试者,二这种题大多考察不了真水平),确保所问问题是自己认真思考过的
  2. 在自己能力范围内,不停追问面试者所做的项目、所掌握的理论细节,看他掌握到什么程度,评判他简历内容的真实性

『三方面』包括:

  1. 理论功底
  2. 代码能力
  3. 项目能力

----------------------

把三方面展开:

  1. 【理论功底】主要考察对机器学习模型的理解,选择性提问(如果遇到面试者的研究方向自己不了解但感兴趣,会很欣喜,可以趁机学习一个哈哈)这块儿的问题会比较细碎,都是我自己深入思考过的(背书是没用的,这里任何一个点我都可以给你展开问下去),在此全部手敲
    1. 过拟合欠拟合(举几个例子让判断下,顺便问问交叉验证的目的、超参数搜索方法、EarlyStopping)、L1正则和L2正则的做法、正则化背后的思想(顺便问问BatchNorm、Covariance Shift)、L1正则产生稀疏解原理、逻辑回归为何线性模型(顺便问问LR如何解决低维不可分、从图模型角度看LR和朴素贝叶斯和无监督)、几种参数估计方法MLE/MAP/贝叶斯的联系和区别、简单说下SVM的支持向量(顺便问问KKT条件、为何对偶、核的通俗理解)、 GBDT随机森林能否并行(顺便问问bagging boosting)、 生成模型判别模型举个例子、聚类方法的掌握(顺便问问Kmeans的EM推导思路、谱聚类和Graph-cut的理解)、梯度下降类方法和牛顿类方法的区别(顺便问问Adam、L-BFGS的思路)、半监督的思想(顺便问问一些特定半监督算法是如何利用无标签数据的、从MAP角度看半监督)、常见的分类模型的评价指标(顺便问问交叉熵、ROC如何绘制、AUC的物理含义、类别不均衡样本)
    2. CNN中卷积操作和卷积核作用、maxpooling作用、卷积层与全连接层的联系、梯度爆炸和消失的概念(顺便问问神经网络权值初始化的方法、为何能减缓梯度爆炸消失、CNN中有哪些解决办法、LSTM如何解决的、如何梯度裁剪、dropout如何用在RNN系列网络中、dropout防止过拟合)、为何卷积可以用在图像/语音/语句上(顺便问问channel在不同类型数据源中的含义)
    3. 如果面试者跟我一样做NLP、推荐系统,我会继续追问 CRF跟逻辑回归 最大熵模型的关系、CRF的优化方法、CRF和MRF的联系、HMM和CRF的关系(顺便问问 朴素贝叶斯和HMM的联系、LSTM+CRF 用于序列标注的原理、CRF的点函数和边函数、CRF的经验分布)、WordEmbedding的几种常用方法和原理(顺便问问language model、perplexity评价指标、word2vec跟Glove的异同)、topic model说一说、为何CNN能用在文本分类、syntactic和semantic问题举例、常见Sentence embedding方法、注意力机制(顺便问问注意力机制的几种不同情形、为何引入、seq2seq原理)、序列标注的评价指标、语义消歧的做法、常见的跟word有关的特征、factorization machine、常见矩阵分解模型、如何把分类模型用于商品推荐(包括数据集划分、模型验证等)、序列学习、wide&deep model(顺便问问为何wide和deep)
  2. 【代码能力】主要考察实现算法和优化代码的能力,我一般会先看面试者的github repo(如果简历给出来),看其代码风格、架构能力(遇到大神会认真学习一个哈哈),如果没有github,我会避免问典型的应试题,而是问一些 我本人从实际问题中抽象出的小算法题,比如:
    1. 给出节点的矩阵和边的矩阵,求路径和最大的路径(来源于 Viterbi 算法,本质就是个动态规划),至少给个思路和伪代码(顺便聊聊前向传播和反向传播)
    2. 给出一数组,数组元素是pair对儿,表示一个有向无环图的<父亲节点, 孩子节点>,用最优的方法,将其变成一个新的有序数组,数组元素是该有向无环图所有节点,数组的有序性体现在:父亲节点在孩子节点前面(来源于 贝叶斯网络实现时的小trick)
  3. 【项目能力】主要考察解决实际问题的思路、填坑能力,这部分最考验面试官功底,要能从面试者浮夸的描述中寻找有意义的点,并一步步深挖。另外很多dirty work(数据预处理、文本清洗、调参经验、算法复杂度优化、Bad case分析、修改损失函数等)也是在这步深挖


最后,我会问面试者:『有没有我刚没问到、但你特别想分享的项目经历』。此问题是给面试者一个展现自我的机会,同时也是挖掘出之前遗漏的问题。


以上问题能答完美的,请私信我~





我向你学习 哈哈


------------补充---------------

  1. 实际会根据面试者学历、研究方向而有侧重地提问,对校招生的项目考察酌情少一些
  2. 这些问题我虽然深入思考过,但答案未必完美,而且这些题绝不是拿来push面试者制造权威的。真正的面试官应该保持open而谦逊的姿态,乐于从面试者那里学习新知识,互相切磋。 我个人认为,一场只有面试官输出观点的面试,对面试官本人来说,是 no value 的
  3. 欢迎就其中任何一个问题,在评论区交流~ 作为一名菜鸟面试官,我会push自己努力提高姿势水平 :-)