ERP俱乐部
ERP爱好者、ERP从业者互相交流、互相学习的乐园;我们的愿景是成为全球一流的中文ERP(Enterprise Resource Planning)交流平台
网站首页
论坛首页
搜索
用户列表
FAQ
注册
登录
ERP俱乐部
->
信息化建设讨论组
->
数据仓库与数据挖掘
->
数据挖掘与数据抽样
数据挖掘与数据抽样
帖子发起人:
charlieokok
发起时间:
2007-08-28 07:35 上午
回复数:
1
楼主
2007-08-28, 07:35 上午
charlieokok
等级: 130级
注册: 2007年8月3日
区域: 上海浦东
经验: 12,450
积分: 8,738
精华: 0
发贴: 2,427
排名: 2
数据挖掘与数据抽样
前段时间在做一个挖掘模型时,模型的特征决定了选择的数据是严重有偏的,怎样在这样的数据上进行抽样,得到能比较好地反映真实情况的数据样本是很关键的。自己对统计学仅仅限于大学课程的学习,很少做过实验,在做数据预处理走了一些弯路。下面对数据挖掘中的抽样发表一点浅见。谢谢苦瓜兄弟解答,希望和大家多多交流:)
在数据挖掘的数据预处理过程中,宽表数据往往是几十万,上百万级记录的。要对所有数据进行训练,时间上很难满足要求,因此对数据进行抽样就很必要了,不同的数据抽样方法对训练结果模型的精度有很大影响。可以考虑用一些数据浏览工具,统计工具对数据分布做一定的探索,在对数据做充分的了解后,再考虑采用合适的数据抽样方法,抽取样本数据进行建模实验。对一般的模型,比如客户细分,主要是数据的聚类,我在做抽样时用了随机抽样,也可以考虑整群抽样;而做离网预警模型或者金融欺诈预测模型时,数据分布是严重有偏的,而且这种有偏数据对这类模型来说恰恰是至关重要的。一般采用分层抽样和过度抽样结合有不错的效果,分层抽样和过度抽样的区别自己也不是很了解,现在只能是做个概述了。
-
分享按钮
IP 地址: 已登录 来自: 已登录
第 2 楼
2007-08-28, 07:35 上午
charlieokok
等级: 130级
注册: 2007年8月3日
区域: 上海浦东
经验: 12,450
积分: 8,738
精华: 0
发贴: 2,427
排名: 2
Re: 数据挖掘与数据抽样
几种常用的抽样方法:
1.简单随机抽样(simple random sampling)
将所有调查总体编号,再用抽签法或随机数字表随机抽取部分观察数据组成样本。
优点:操作简单,均数、率及相应的标准误计算简单。
缺点:总体较大时,难以一一编号。
2.系统抽样(systematic sampling)
又称机械抽样、等距抽样,即先将总体的观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间距从每一部分各抽取一个观察单位组成样本。
优点:易于理解、简便易行。
缺点:总体有周期或增减趋势时,易产生偏性。
3.整群抽样(cluster sampling)
先将总体依照一种或几种特征分为几个子总体(类.群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本
优点:便于组织、节省经费。
缺点:抽样误差大于单纯随机抽样。
4.分层抽样(stratified sampling)
将总体样本按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位,合起来组成样本。有按比例分配和最优分配(过度抽样是否就是最优分配方法?)两种方案。
特点:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各类别之间差异较大(比如金融客户风险/非风险样本的差异),类别较多的情况。
优点:样本代表性好,抽样误差减少。
-
IP 地址: 已登录 来自: 已登录
第 1 页 总共 1 页 [共有 2 条记录]
ERP俱乐部
->
信息化建设讨论组
->
数据仓库与数据挖掘
->
数据挖掘与数据抽样
请选择
论坛首页
─» 论坛搜索
─» 最新主题
─» 热门主题
─» 未回复的主题
用户选项
─» 登陆
─» 注册
─» 找回密码
SAP专栏
─» FI&CO(财务与会计)
─» MM(物料管理)
─» SD(销售与分销)
─» PP(生产计划)
─» WM、LE(物流、仓库、发运)
─» QM(质量管理)
─» PS(项目系统)
─» PM(工厂维护)
─» HR(人力资源)
─» BASIS
─» ABAP
─» SAP Business Intelligence(数据仓库)
─» SAP BUSINESS ONE
─» SAP Netweaver
─» SAP Solutions
─» CRM(Customer Relationship Management客户关系管理)
─» Workflow
─» SAP综合讨论版块
─» HANA(High-Performance Analytic Appliance)
Oracle Applications专栏
─» Oracle E-Business Suite
─» PeopleSoft Enterprise
─» Siebel
─» JD Edwards
─» Hyperion
Microsoft专栏
─» 亚可审批工作流、CRM专栏
─» Visual C#
─» ASP.NET
UFIDA专栏
─» 用友
Kingdee专栏
─» 金蝶
数据库专栏
─» Oracle数据库
─» Oracle入门与认证
─» Oracle开发
─» MS SQL Server数据库
─» DB2数据库
会员交流
─» 培训专栏
─» 休闲与娱乐
─» 招聘与求职
─» SAP新闻
─» 供求专区
─» 海阔天空
信息化建设讨论组
─» PLM
─» IT规划及CIO
─» ERP
─» 数据仓库与数据挖掘
管理员及版主
─» 问题报告
站务管理
─» 站点公告及意见建议
(C)Copyright 2005-2020
www.erpclub.org
All Rights Reserved.
Tel:+86-755-26444630
Email:webmaster@yok.com.cn