做为至少学了两遍ML的人,目前在上悉尼大学COMP5318,打算系统总结一下知识点,方便自己记忆更深。
今天主要讲的内容是数据的预处理,包括去噪、去丢失值、提特征、特征转化、标准化、相似度度量和计算等等
Basic Concepts
Nominal vs. Numeric
- Nominal(Categorical) Attributes: 取值是某个类别,类别属于一个特定的数据集,可以有序也可以无序。处理这类数据时,可以根据一定方法转化为Numeric的数据再处理。
- Numeric(continuous) Attributes: 取值是一个数值,有的可比(定比)有的不可比(定距),通常也要去量纲后才能在类别之间比较
Type of Data
- Data matrix
- Sequential
- graph
- transaction data
- spatio-temporal
Noise
- Distortion of values: 例如语音中的噪声
- Adding of spurious examples
- Inconsistent and duplicate data
最后一类是比较好处理的,前两类噪声可以通过信号、图像处理等方式处理,也可以通过机器学习的算法来消除,后者更准确
Missing values
- 删除有缺失值的数据项
- 给缺失值赋值
- Nominal特征:采用多数投票方式,有以下两种方式
- 在总体中投票
- 在该类别中投票
- Numerical特征:用k近邻点的均值赋值(最相似样本)
- Nominal特征:采用多数投票方式,有以下两种方式
Data Preprocessing
Data aggregation
- 定义:将两个或多个特征combine到一起
- 目的:
- 减少数据维度
- 减少计算量
- 降低数据方差,使得数据更平稳
- 缺点:有损失重要特征的风险
- 降维方法Dimensionality reduction:
- 待补充
Feature extraction
- 定义:从原始数据中提取特征
目的:得到更容易理解的数据
未找到相关的 Issues 进行评论
请联系 @weiren1998 初始化创建