大数据工程师技能图谱【整理-转】

大数据通用处理平台

Spark/Flink/Hadoop

分布式存储

HDFS

资源调度

Yarn/Mesos

数据分析/数据仓库(SQL类)

Pig/Hive/kylin/Spark SQL/Spark DataFrame/Impala/Phoenix/ELK/ElasticSearch/Logstash/Kibana

消息队列

Kafka(纯日志类,大吞吐量)/RocketMQ/ZeroMQ/ActiveMQ/RabbitMQ

流式计算

Storm/JStorm

Spark Streaming

日志收集

Scribe/Flume

编程语言

Java/Python/R/Ruby

数据分析挖掘

MATLAB/SPSS/SAS

数据可视化

R/D3.js/ECharts/Excle

机器学习

聚类/时间序列/推荐系统/回归分析/文本挖掘/决策树/支持向量机/贝叶斯分类/神经网络

机器学习工具

Mahout/Spark Mlib/TensorFlow (Google 系)/Amazon Machine Learning/DMTK (微软分布式机器学习工具)

算法

数据结构:栈,队列,链表/散列表/二叉树,红黑树,B树/图

常用算法

排序:插入排序/桶排序/堆排序/快速排序/最大子数组/最长公共子序列/最小生成树/最短路径/矩阵的存储和运算

分布式一致性

paxos/raft/gossip

云计算

云服务:SaaS/PaaS/IaaS

Openstack/Docker

Hadoop 家族技能图谱

Hadoop/Zookeeper/Avro/Chukwa/Ambari/Whirr/Bigtop/HCatalog/Hue/HBase/Pig/SqoopCassandra/Hama/

Flume/Giraph/Oozie/Crunch/Hive/Mahout

Hive 技能图谱

Hive系统架构:MetaStore/Derby/MySQL

HDFS

/user/hive/warehouse

MapReduce

Hive配置文件

hive-env.sh/hive-site.xml/hive-log4j.properties

Hive命令行/HiveQL

软件集成

Zookeeper/Thrift/Ooize/HCatalog/AWS

协同过滤

基于用户协同过滤/基于物品协同过滤

相似度矩阵

欧氏距离/Pearson距离/余弦距离cosine/Spearman’s rank correlation coefficient/

Tanimoto coefficient/log-likelihood

近邻算法

按值取近邻/按比例取近邻

推荐算法

UserBasedRecommender/ItemBasedRecommender/SlopeOneRecommender/

SVDRecommender/KnnltemBasedRecommender/TreeClusteringRecommender

算法检验

全查率Recall/准查率Precision

数据模型

UserID,ltemID,PreferenceValue/UserID,ItemID

Hadoop集群部署

聚类

数据模型

DenseVector/RandomAccessSparseVector/SequentialAccessSpareVector

距离算法

欧式距离/欧式平方距离/马氏距离/余弦距离/Tanimoto距离/带权重距离

聚类算法

k-means/Canopy/Fuzzy k-means/Dirichlet/Topic moseling on LDA

经验分享 程序员 微信小程序 职场和发展