机器学习入门

33 0

简介

机器学习是从数据中自动分析获得规律(模型),并利用规律(模型)对未知数据进行预测。

数据来源与类型

数据类型

1.离散型数据:由记录不同类别个体的数目得到的数据,又称计数数据,所有这些数据全部是整数,而且不可再被细分,也不能够再提高它们的精度。

2.连续型数据:变量可在某个范围内取任一数,即变量的取值是可以连续的,含有小数部分。如时间、长度等。

“数据的类型将是机器学习模型对不同问题的不同处理的依据”

数据集

1.scikit-learn:数据量较小、学习方便

2.UCI:收录了360个数据集、覆盖科学,生活,经济、数据量几十万

3.Kaggle:大数据竞赛平台、80万科学家、真实数据、数据量巨大

数据集的结构:特征值+目标值,有些数据集可以没有目标值

数据的特征工程

特征工程定义

特征工程是将原始数据转换为更好代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型的准确性。

特征工程将直接影响模型的预测结果

scikit-learn库简介

数据的特征抽取

1.sklearn特征抽取API

•sklearn.feature_extraction

2.字典特征抽取

sklearn.feature_extraction.DictVectorizer

作用:对字典数据进行特征值化

3.文本特征抽取

sklearn.feature_extraction.text.CountVectorizer

作用:对文本数据进行特征值化。

在对中文进行文本特征抽取的过程中需要利用jieba进行分词,再实例化CountVectorizer后进行操作。

TF-IDF的主要思想:如果某个词语在一篇文章中出现的概率极高,并且在其他文章中很少出现,则认为此词语具有很好的类别区分能力,适合用来分类。

TF-IDF的作用:用以评估一词字对于一个文件或者一个语料库中的其中一份文件的重要程度。

TF-IDF类:sklearn.feature_extraction.text.TfidfVectorizer

TfidfVectorizer是分类机器学习算法的重要依据。

数据的特征处理

1.特征处理的方法

特征处理的定义:通过特定的统计方法(数学方法)将数据转换成算法要求的数据。

数值型数据:标准缩放:1.归一化、2.标准化、3.缺失值。

类别型数据:one-hot编码

时间类型:时间的切分

归一化:特点:通过对原始数据进行变化把数据映射到(默认[0,1])之间。

sklearn归一化API:  sklearn.preprocessing.MinMaxScaler

归一化的步骤:1.实例化MinMaxScalar,2.通过fit_transform转换。

归一化总结:在特定场景下最大值和最小值是变化的,而且最大值和最小值非常容易受到异常点的影响,所以这种方法的鲁棒性较差,只适合传统精确小数据场景。

标准化:1.特点:通过对原始数据进行变换把数据变换到均值为0,方差为1的范围内。2.公式P74

对于归一化来说,如果出现了异常点,影响了最大值和最小值,那么结果显然会发生改变;对于标准化来说,如果出现了异常点,由于具有一定的数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。

sklearn特征化API

scikit-learn.preprocessing.StandardScaler

标准化总结:在已有样本足够的情况下比较稳定,适合现代嘈杂大数据场景。

缺失值处理方法:

1.删除或插补:如果每列或者每行数据缺失值达到一定的比例,建议放弃整行或者整列;可以通过缺失值每行或者每列的平均值、中位数来填充。

2.sklearn缺失值API:sklearn.preprocessing.Imputer

2.sklearn特征处理API

•sklearn. preprocessing

数据的特征选择

发表评论

Scroll Up