$ w' U6 l5 c+ y8 D
数据分析师近几年在国内互联网圈越来越火,很多开发都因为薪资和发展前景,希望转行到数据分析岗。今天,我们就来聊聊面试数据分析师的那些事。
/ y2 G* s, [! S# r: ]0 _
其实,数据分析能力是每个互联网人的必备技能,哪怕你没有转行数据分析师的计划,也推荐你看看这个文章,提升你的数据能力。
O! ] D# \ R7 z# f
/ l/ n' ^. _: u0 ]
% [& y* _2 g5 V
打开凤凰新闻,查看更多高清图片
7 ]8 S! o! E1 `) m
( ]2 s) \5 Y- t' a& Q, P, z ; n. A7 Q0 F$ W' K a( C
数据分析的能力要求
2 Y; Q$ M( y+ f! D2 J
与数据分析相关的工作有一个特质,就是对数字非常敏感,同时也要求对数据具有良好的思考能力,比如说如何用数据指导业务,如何将数据呈现在报告中。
; G u5 f' p/ i3 c/ S: p
在面试的时候,面试官通常会考察以下三个维度的能力:
! p: V, m0 c3 u* Y: K/ q. H9 W/ C$ l
1. 理论知识(概率统计、概率分析等)
; J! I3 b) m$ r0 A6 A, ]
掌握与数据分析相关的算法是算法工程师必备的能力,如果你面试的是和算法相关的工作,那么面试官一定会问你和算法相关的问题。比如常用的数据挖掘算法都有哪些,EM 算法和 K-Means 算法的区别和相同之处有哪些等。
6 V" B, Y! L! K! j8 D9 }1 P) C 有些分析师的工作还需要有一定的数学基础,比如概率论与数理统计,最优化原理等。这些知识在算法优化中会用到。
4 L3 B j. r2 u) ^" ]! I5 H 除此以外,一些数据工程师的工作更偏向于前期的数据预处理,比如 ETL 工程师。这个职位考察你对数据清洗、数据集成的能力。虽然它们不是数据分析的“炼金”环节,却在数据分析过程中占了 80% 的时间。
; o3 L( x, X9 }1 J; C. E 2. 具体工具(sklearn、Python、Numpy、Pandas 等)
1 P) R- n- c& X3 I: q- [ 工程师一定需要掌握工具,你通常可以从 JD 中了解一家公司采用的工具有哪些。如果你做的是和算法相关的工作,最好还是掌握一门语言,Python 语言最适合不过,还需要对 Python 的工具,比如 Numpy、Pandas、sklearn 有一定的了解。
6 E$ _: |- k4 \! a2 b" |7 l- q 数据 ETL 工程师还需要掌握 ETL 工具,比如 Kettle。
7 n! X$ r1 L/ i! Y0 O 如果是数据可视化工作,需要掌握数据可视化工具,比如 Python 可视化,Tableau 等。
, G1 ~" ~7 ~) |' @, x% H9 U" U2 G 如果工作和数据采集相关,你也需要掌握数据采集工具,比如 Python 爬虫、八爪鱼。
. a5 g+ r# c. D) V4 Y 3. 业务能力(数据思维)
" X" A3 e7 D* l z
数据分析的本质是要对业务有帮助。因此数据分析有一个很重要的知识点就是用户画像。
# W- J0 q& W w' i K& r
用户画像是企业业务中用到比较多的场景,对于数据分析来说,就是对数据进行标签化,实际上这是一种抽象能力。
6 ?; K: M7 Z2 Y4 w7 M8 `

# i4 r' A+ k e
题 目
5 k4 q [# z2 K- b& Q
作为实力检测的一部分,笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。以下是几道简单的题,你不妨来看下。
2 \' ]( J U# } 问答题
$ N9 H) L8 N7 F 1. 用一种编程语言,实现 1+2+3+4+5+…+100。
( ?0 ^/ Q$ G! x( V( q6 q4 U8 E 这道题考察的就是语言基础,你可以用自己熟悉的语言完成这道题,比如 Python、Java、PHP、C++ 等。这里我用 Python 举例:
8 w; ], r% S$ Q' X sum = 0
* v v" }- x9 Y
for number in range(1,101):
2 U6 f' z, k% V1 Y
sum = sum + number
1 M0 H# K+ Y0 U6 L; ? print(sum)
+ y u1 J3 W1 r2 U7 }
2. 如何理解过拟合?
6 s0 }+ H7 A4 j0 {
过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。
% Y5 |( Q1 p- I3 i- A* \ 欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。
4 w" b7 G! A u2 n$ `% o 3. 为什么说朴素贝叶斯是“朴素”的?
& S6 l$ d5 P5 C( Q9 B: y2 a
朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。
9 @7 G! h' [0 S; J: t$ j- y# U* O
4. SVM 最重要的思想是什么?
/ b: G4 s# j c# u SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。
" q: @. i6 l7 \' ]- I/ u) {/ c
5. K-Means 和 KNN 算法的区别是什么?
3 v P5 ?9 A6 R& J" O 首先,这两个算法解决的是数据挖掘中的两类问题。K-Means是聚类算法,KNN是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means是非监督学习,也就是不需要事先给出分类标签,而KNN是有监督学习,需要我们给出训练数据的分类标识。最后,K值的含义不同。K-Means中的K值代表K类。KNN中的K值代表K个最接近的邻居。
0 |# ^( Q7 M T8 l+ W6 i 动手题
0 T$ |6 _& p) }/ s* w+ k
1. 我给你一组数据,如果要你做数据清洗,你会怎么做?
. ^8 s! V/ }: |# `" A1 w6 o

( m( u" Q- P6 D! |1 H2 r L( F5 A
实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在 2 个问题:典韦出现了 2 次,张飞的数学成绩缺失。
: Z/ ~. p, p# u; C$ |
针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。
$ P6 Y" X$ R0 X6 }5 @4 P 2. 豆瓣电影数据集关联规则挖掘
P. q3 H' B# p3 [8 z5 o+ m1 g% A
在数据分析领域,有一个很经典的案例,那就是“啤酒 + 尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。
2 ^6 U6 u9 \) S: y8 |& M* C1 ^7 m 如果让你用 Apriori 算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?
& B* b/ ?( {( Q! X/ K 以上就是有关数据分析面试笔试的一些内容,你或许可以感受到数据分析师这个岗位的特殊性。面试找工作虽说不是一朝一夕就可以完成的事情,但希望此篇能帮到你。
9 Y0 D0 G7 c2 `4 a( R; T1 K7 J+ { 了解IT相关内容,各平台同名“职坐标在线”
3 O& M; T8 F+ d; K6 M$ g$ K