在对数据进行初始分析以后,下一步是确定句是否为干净的。很多情况下,数据可能会具有未知的值,这些值可能不会添加有用的信息,或者可能具有不想在分析时予以考虑的离群值。需要对此类监控数据进行清理以便具有一个良好的挖掘模型。通常情况下,监控数据挖掘模型创建要求某一列中的数据是一致的。劣种的每一个非重复值都有独特的一样,一次应该检查每一列,以确保不存在多个相同含义的值。可以使用重新标记向导快速更正某一列中的这种不一致问题。另一个典型的应用场景是,某一列中具有很多不同的值,但可以将这些值汇总为较少的值。例如,Marital Status列可能具有Single、Divorced、Widowed以及其他值。
  Clean Data组提供了两个向导,分别称为离群值和重新标记。离群值向导可以帮助你检测某个特定列中的离群值并将其删除,而重新标记向导使可以轻松地将某一列中的数据更改为所需的值。为了了解这些向导,首先请在要使用的表中进行一些更改。若要开始,请在Source Data工作表中将单元格F4和F13更改为Some College。
  可以通过多种方式来检测在Excel工作表中的不同位置输入的具有重复意义的值。一种方法是使某个列标题上的筛选控件向下。如果对Education列执行此操作,可以看到Partial College和Some College,它们具有相同的含义。现在,可以使用清理监控数据重新标记向导快速更正这些问题。
  (1)通过在Data Mining功能区上单击Clean Data并选择Re-label来启动重新标记向导。
  (2)在Select Source Data页面上,使用默认的Source Data表选择,然后单击Next按钮。
  (3)在Select Column页面上选择Education列,然后单击Next按钮。
  你将看到Education列上的各个值以及具有这些值的行计数。可以在该对话框中提供新的标签来替换现有标签。
  (4)Select Destination页面提供了三个选项用于应用所选的新值。第一个选项是向当前工作表中添加新的一列。第二个选项是将具有更改的工作表数据复制到一个新的工作表中。第三个选项是就地更改数据。请注意,Re-label Wizard执行的操作无法还原。对于选项三来说,这一点非常重要。因此为了安全起见,应该使用选项一或者选项二。
  (5)选择选项二创建一个新的工作表,然后单击Finish按钮。你应该看到向导在Education列的旁边添加新的一列Education2,并将单元格G4和G13的值设置为Partial College。现在可以将各个Education值进一步整合为两个值,Has Bachelors和No Bachelors,用于表示某位客户是否具有学位。Re-label Wizard提供了一个简单易用的界面,可以对工作表中某一列的各个值进行全面的更改。该向导可以用于整合值以确保一致性,或者用于许多其他目的,以便快速查看和修改某一列中的所有值。

★关于WorkWin公司电脑监控软件★

WorkWin的使命是打造Work用途的Windows 电脑系统,有效规范员工上网行为,让老板知道员工每天在做什么(监控包括屏幕、上网在内的一举一动),限制员工不能做什么(禁止网购、游戏、优盘等)。

WorkWin基于纯软件设计,非常容易使用,无需添加或改动任何硬件,使用一台管理机监控全部员工机电脑。历经南京网亚十余年精心打造,此时此刻每天都有成千上万企业电脑正在运行WorkWin,选择WorkWin选择“赢”。

WorkWin介绍

WorkWin监控首页 短视频讲解 下载免费试用版

版权所有,南京网亚计算机有限公司 。本文链接地址: 清理监控数据:离群值和重新标记向导