数据分析、数据挖掘、机器学习实习面经总结
本人统计渣硕,上半年找实习,陆陆续续面试了十几家公司的数据分析、挖掘、算法相关的岗位,在这里把能记得的公司的面试内容回顾总结一下,有些记不得了,印象深刻的尽量回忆写下来。
某创业生态型企业,文本挖掘岗位
大数据部门负责人面,(了解公司业务流程做行业生态信息整合的,目前项目是全网人才抓取建库) 基础问题,各编程语言掌握情况、为何会跨专业、对相关行业的了解; 算法leader询问了的基于文本的语义分析问题,包括特征提取和tf-idf算法语义权重计算,LDA原理、爬虫基础、数据清洗相关、课程作业设计相关细节、学期课程 业务设计人才库去重问题,考虑两个:unique字段和计算文本相似度 R的一些包(Rcurl爬虫两个问题,一个是面对验证码的解决方案,一个是基于搜索引擎的爬取问题),关于R package doc 的阅读和包的改写,基于Rserve的协同工作,实现paper算法的时长,是否有自主尝试tensorflow等开源框架等,最后还问了jieba和哈工大LTP在使用上的区别,谈一下感受
某二手车,数据分析岗位
笔试:包括SQL数据查询、考了个快速排序和插入排序、mapreduce的wc功能实现
算法(写公式、作图):kmeans的迭代方式、理想目的、何时收敛; 决策树的几种类型、特征选择、相关指标计算,过拟合的解决方式(为何、如何剪枝),决策树大方差以及预测曲面不光滑问题、重抽样相关,随机森林原理; 处理流程:标准化操作、数据库相关范式 询问在上一次实习的项目经验、原理、实现以及业务逻辑,如何设置jieba分词时的参数和解决实体分词的关系
电商巨头,60BD了,数据分析岗位
记得部分,Sql笔试,决策树(建树方案、不同类型(ID3.0、C4.5、C5.0、cart)、剪枝过拟合问题解决方案)、Logistic回归(手推、作图)、svm(对偶手推细节 、作图)、完整的多元回归处理流程(从清洗(缺失值插补)到建模(合适模型训练、调参)完成到验证(哪些指标取验证)、稀疏矩阵解决方案)、询问在上一次实习的项目经验、原理、实现以及业务逻辑、Excel的基本函数实操
BAT机器学习岗
主要还是根据简历内容来问的,也怪自己没有准备,表现不佳。 机器学习方面:svm 三种情况极其对应方法,对偶算法求分类决策函数细节,手推,不同kernel trick 原理以及适合场景。 在线上环境中如何用kmeans基于数据自动获取k而不靠人去拍一个k; PCA和Lda 区别,svd在其中扮演的作用; 分词的结果呈现方式有那些;高维稀疏数据如何选择合适降维方法。 代码方面,位运算和反转等方法的操作,与leetcode 和剑指offer 上做过的题目相似度还是比较高的,比如移位查找,带分隔的字符串反转、独立反转,树的反转等等
某k12企业top,数据挖掘岗位
主要考查的基本还是机器学习算法,首先让我实现一个梯度下降的参数更新,给定目标函数与收敛目标,求偏导迭代更新即可。然后问项目和前实习经历,这个好说。然后回到算法,问了很多细致的,有一些细节可能掌握不够全,如semi-NB 解决强约束naive 特性的问题,周志华书里有写但我没细看,比如计算文本相似度为什么用余弦不用欧式,分类问题的多标签问题,几个算法的损失函数和最优化方法。