学习笔记 Day 40 (机器学习算法 -- 基础)
概念:
领域:
内容:
什么是机器学习:
sklearn:
one—hot编码:
字典特征抽取:
文本特征抽取:
from sklearn.feature_extraction.text import CountVectorizer import jieba cv = CountVectorizer() text = 人生苦短。我用Python,你用不用,我数学看不懂 te = .join(list(jieba.cut(text))) data = cv.fit_transform([te]) print(cv.get_feature_names()) print(data)
tf-idf:
TF-IDF的主要思想是:
如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer import jieba tf = TfidfVectorizer() # stop_words= 停用词 text = 人生苦短。我用Python,你用不用,我数学看不懂 te = .join(list(jieba.cut(text))) data = tf.fit_transform([te]) print(tf.get_feature_names()) print(data)
结果:
反映的是重要性程度。
特征预处理:
通过特定的统计方法(数学方法)将数据转换成算法要求的数据
归一化:
标准化:
在已有样本比较多的情况下比较稳定,适合嘈杂大数据场景
缺失值处理:
上一篇:
通过多线程提高代码的执行效率例子
下一篇:
AUTOSAR学习笔记1——基础了解