0%

数据预处理

做为至少学了两遍ML的人,目前在上悉尼大学COMP5318,打算系统总结一下知识点,方便自己记忆更深。

今天主要讲的内容是数据的预处理,包括去噪、去丢失值、提特征、特征转化、标准化、相似度度量和计算等等

Basic Concepts

Nominal vs. Numeric

  • Nominal(Categorical) Attributes: 取值是某个类别,类别属于一个特定的数据集,可以有序也可以无序。处理这类数据时,可以根据一定方法转化为Numeric的数据再处理。
  • Numeric(continuous) Attributes: 取值是一个数值,有的可比(定比)有的不可比(定距),通常也要去量纲后才能在类别之间比较

Type of Data

  1. Data matrix
  2. Sequential
  3. graph
  4. transaction data
  5. spatio-temporal

Noise

  1. Distortion of values: 例如语音中的噪声
  2. Adding of spurious examples
  3. Inconsistent and duplicate data

最后一类是比较好处理的,前两类噪声可以通过信号、图像处理等方式处理,也可以通过机器学习的算法来消除,后者更准确

Missing values

  1. 删除有缺失值的数据项
  2. 给缺失值赋值
    1. Nominal特征:采用多数投票方式,有以下两种方式
      • 在总体中投票
      • 在该类别中投票
    2. Numerical特征:用k近邻点的均值赋值(最相似样本)

Data Preprocessing

Data aggregation

  1. 定义:将两个或多个特征combine到一起
  2. 目的:
    • 减少数据维度
    • 减少计算量
    • 降低数据方差,使得数据更平稳
    • 缺点:有损失重要特征的风险
  3. 降维方法Dimensionality reduction:
    • 待补充

Feature extraction

  1. 定义:从原始数据中提取特征
  2. 目的:得到更容易理解的数据

Feature subset selection

Converting attributes from one type to another

Normalization

欲戴皇冠,必承其重,加油!

未找到相关的 Issues 进行评论

请联系 @weiren1998 初始化创建