申请专栏作者
投稿发布
您的当前位置:主页 > yabo亚博体育下载 > 正文

yabo88滚球清理的终极指南

来源: 时间:2019-03-20
请点击下面的广告后浏览!

? 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

我花了几个月的时间分析来自传感器、调查及日志等相关yabo88滚球。无论我用多少图表,设计多么复杂的算法,结果总是会与预期不同。更糟糕的是,当你向首席执行官展示你的新发现时,他/她总会发现缺陷,你的发现与他们的理解完全不符-?毕竟,他们是比你更了解领域的专家,而你只是yabo88滚球工程师或开发人员。

可思yabo88滚球sykv.com

你为你的模型引入了大量脏yabo88滚球,没有清理yabo88滚球,你告诉你的公司用这些结果做事情,结果肯定是错的。yabo88滚球不正确或不一致会导致错误的结论,因此,清理和理解yabo88滚球对结果的质量都会有很大影响。 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

垃圾进垃圾出 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

实际上,简单算法的作用可能超过复杂的算法,因为它被赋予了足够高质量的yabo88滚球。

内容来自可思yabo88滚球sykv.com

质量yabo88滚球优于花哨的算法 内容来自可思yabo88滚球sykv.com

出于这些原因,重要的是要有一个分步指南,一个备忘单。首先,我们想要实现的目标是什么?质量yabo88滚球是什么意思?质量yabo88滚球的衡量标准是什么?了解你想要完成的任务,在采取任何行动之前,你的最终目标至关重要。 可思yabo88滚球sykv.com,sykv.cn

目录: 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

· yabo88滚球质量(合法性,准确性,完整性,一致性)

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

· 工作流程(检查,清洁,验证,报告) 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

· 检查(yabo88滚球分析,可视化,软件包)

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

· 清理(??无关yabo88滚球,重复yabo88滚球,类型转换,语法错误) 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

· 验证 可思yabo88滚球sykv.com,sykv.cn

· 总结 可思yabo88滚球sykv.com,sykv.cn

yabo88滚球质量

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

除了维基百科上的质量标准之外,我找不到更好的解释质量标准。所以,我将在这里总结一下。 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

合法性

内容来自可思yabo88滚球sykv.com

yabo88滚球符合定义的业务规则或约束的程度。

可思yabo88滚球sykv.com,sykv.cn

· yabo88滚球类型约束:特定列中的值必须是特定的yabo88滚球类型,例如,布尔值,数字,日期等。 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

· 范围约束:通常,数字或日期应在特定范围内。 可思yabo88滚球-人工智能资讯平台sykv.com

· 强制约束:某些列不能为空。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

· 唯一约束:字段或字段组合在yabo88滚球集中必须是唯一的。 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

· Set-Membership约束:列的值来自一组离散值,例如枚举值。例如,一个人的性别可能是男性或女性。 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

· 外键约束:在关系yabo88滚球库中,外键列不能具有引用的主键中不存在的值。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

· 正则表达式模式:必须采用特定模式的文本字段。例如,电话号码可能需要具有模式(999)999-9999。

可思yabo88滚球sykv.com,sykv.cn

· 跨领域验证:跨越多个领域的某些条件必须成立。例如,患者出院的日期不能早于入院日期。

可思yabo88滚球-人工智能资讯平台sykv.com

准确性 可思yabo88滚球-人工智能资讯平台sykv.com

yabo88滚球接近真实值的程度。

内容来自可思yabo88滚球sykv.com

虽然定义所有的值允许出现无效值,但这并不意味着它们都是准确的。 可思yabo88滚球sykv.com,sykv.cn

一个有效的街道地址可能实际上并不存在,一个人的眼睛颜色,比如蓝色,可能是有效的,但不是真的。另一件需要注意的是精度和精度之间的差异。

可思yabo88滚球-人工智能资讯平台sykv.com

完整性 可思yabo88滚球sykv.com,sykv.cn

所有必需yabo88滚球的已知程度。由于各种原因,yabo88滚球可能会丢失。如果可能的话,可以通过质疑原始来源来缓解这个问题,比如重新获得这个主题的yabo88滚球。 可思yabo88滚球sykv.com,sykv.cn

一致性 可思yabo88滚球sykv.com,sykv.cn

yabo88滚球在同一yabo88滚球集内或跨多个yabo88滚球集的一致程度。当yabo88滚球集中的两个值相互矛盾时,就会出现不一致。 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

离婚后,有效年龄,例如10岁,可能与婚姻状况不符。客户被记录在具有两个不同地址的两个不同表中。哪一个是真的? 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

工作流程 可思yabo88滚球sykv.com,sykv.cn

工作流程一共四个步骤,旨在生成高质量的yabo88滚球,并考虑到我们所讨论的所有标准。

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

1.检查:检测不正确和不一致的yabo88滚球。 可思yabo88滚球sykv.com,sykv.cn

2.清洁:修复或删除发现的异常。

可思yabo88滚球sykv.com,sykv.cn

3.验证:清洁后,检查结果以验证是否正确。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

4.报告:记录所做更改和当前存储yabo88滚球质量的报告。

可思yabo88滚球sykv.com

实际上,你所看到的顺序过程是一个迭代的,无穷无尽的过程。当检测到新的缺陷时,可以从验证到检查。 可思yabo88滚球sykv.com,sykv.cn

检查 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

检查yabo88滚球非常耗时,并且需要使用许多方法来探索用于错误检测的基础yabo88滚球。下面是其中的一些:

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

yabo88滚球分析 可思yabo88滚球-人工智能资讯平台sykv.com

一个汇总统计有关yabo88滚球的yabo88滚球分析是真正有用的,它可以提供有关yabo88滚球质量的总体思路。例如,检查特定列是否符合特定标准或模式。yabo88滚球列是记录为字符串还是数字?丢失了多少个值?列中有多少个唯一值及其分布?此yabo88滚球集是否与另一个yabo88滚球集链接或有关系? 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

可视化 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

通过使用诸如平均值、标准偏差、范围或分位数等统计方法分析和可视化yabo88滚球,可以找到意外且因此错误的值。 内容来自可思yabo88滚球sykv.com

例如,通过可视化各国的平均收入,可能会看到有一些异常值。这些异常值值得研究,不一定是不正确的yabo88滚球。 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

软件包 可思yabo88滚球-人工智能资讯平台sykv.com

使用你的语言提供的几个软件包或库将允许你指定约束并检查yabo88滚球是否违反这些约束。此外,他们不仅可以生成违反哪些规则的报告,还可以创建哪些列与哪些规则相关联的图表。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

? 可思yabo88滚球-人工智能资讯平台sykv.com

? 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

清洁

内容来自可思yabo88滚球sykv.com

yabo88滚球清理涉及基于问题和yabo88滚球类型的不同技术。可以应用不同的方法,每种方法都有自己的权衡。总的来说,不正确的yabo88滚球被删除,纠正或估算。 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

不相关的yabo88滚球 可思yabo88滚球-www.sykv.cn,sykv.com

不相关的yabo88滚球是那些实际上不需要的yabo88滚球,并且不适合我们试图解决的问题。例如,如果我们分析有关人口总体健康状况的yabo88滚球,则不需要电话号码。同样,如果你只对某个特定国家/地区感兴趣,则不希望包含所有其他国家/地区。只有当你确定某个yabo88滚球不重要时,你才可以放弃它。否则,你就需要探索特征变量之间的相关矩阵。

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

即使你注意到没有相关性,你应该问一个域专家。你永远不会知道,一个似乎无关紧要的特征,从实际经验来看,可能非常重要。

可思yabo88滚球sykv.com,sykv.cn

重复项

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

重复项是yabo88滚球集中重复的yabo88滚球点。

可思yabo88滚球sykv.com,sykv.cn

例如:

内容来自可思yabo88滚球sykv.com

· yabo88滚球来自不同来源;
· 用户可能会两次点击提交按钮,认为表单实际上没有提交;
· 提交了两次在线预订请求,纠正了第一次意外输入的错误信息。 内容来自可思yabo88滚球sykv.com

类型转换 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

确保将数字存储为数字yabo88滚球类型,日期应存储为日期对象,或Unix时间戳(秒数),依此类推。如果需要,可以将分类值转换为数字和从数字转换。 可思yabo88滚球sykv.com,sykv.cn

需要注意的是,无法转换为指定类型的值应转换为NA值(或任何值),并显示警告。这表示值不正确,必须修复。 可思yabo88滚球-人工智能资讯平台sykv.com

语法错误 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

删除空格:应删除字符串开头或结尾的额外空格。

可思yabo88滚球-人工智能资讯平台sykv.com

" hello world " => "hello world

可思yabo88滚球sykv.com,sykv.cn

填充字符串:字符串可以用空格或其他字符填充到一定宽度。例如,某些数字代码通常用前缀零表示,以确保它们始终具有相同的位数。 内容来自可思yabo88滚球sykv.com

313 => 000313 (6 digits)

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

拼写错误:字符串可以通过多种不同方式输入,毫无疑问,可能会出错。

内容来自可思yabo88滚球sykv.com

Gender
m
Male
fem.
FemalE
Femle 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

这个分类变量被认为有5个不同的类,而不是预期的2个:男性和女性。因此,我们的职责是从上述yabo88滚球中识别出每个值是男性还是女性。我们可以怎么做呢? 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

第一种解决方案是手动将每个值映射到“男性”或“女性”。 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

dataframe['gender'].map({'m': 'male', fem.': 'female', ...})

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

第二种解决方案是使用模式匹配。例如,我们可以在字符串的开头查找性别中m或M的出现。

可思yabo88滚球-人工智能资讯平台sykv.com

re.sub(r"\^m\$", 'Male', 'male', flags=re.IGNORECASE)

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

第三种解决方案是使用模糊匹配:一种算法,用于识别预期字符串与给定字符串之间的距离。它的基本实现计算将一个字符串转换为另一个字符串所需的操作数。

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

Gender male female

可思yabo88滚球sykv.com

m 3 5
Male 1 3
fem. 5 3
FemalE 3 2
Femle 3 1

可思yabo88滚球sykv.com,sykv.cn

此外,如果你有一个像城市名称这样的变量,你怀疑拼写错误或类似字符串应该被视为相同。例如,“lisbon”可以输入为“lisboa”,“lisbona”,“Lisbon”等。 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

City Distance from "lisbon"

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

lisbon 0
lisboa 1
Lisbon 1
lisbona 2 可思yabo88滚球-人工智能资讯平台sykv.com

注意“0”,“NA”,“无”,“空”或“INF”等值,它们可能意味着同样的事情:缺少价值。 内容来自可思yabo88滚球sykv.com

规范

可思yabo88滚球sykv.com,sykv.cn

我们的职责是不仅要识别拼写错误,还要将每个值放在同一标准格式中。对于字符串,请确保所有值都是小写或大写。

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

对于数值,请确保所有值都具有特定的测量单位。例如,高度可以是米和厘米。1米的差异被认为与1厘米的差异相同。因此,这里的任务是将高度转换为单个单位。

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

对于日期,美国版本与欧洲版本不同。将日期记录为时间戳(毫秒数)与将日期记录为日期对象不同。 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

缩放/转换

可思yabo88滚球-www.sykv.cn,sykv.com

缩放意味着转换yabo88滚球以使其适合特定的比例,例如0-100或0-1。

可思yabo88滚球sykv.com,sykv.cn

例如,可以将学生的考试分数重新缩放为百分比(0-100)而不是GPA(0-5)。 内容来自可思yabo88滚球sykv.com

它还可以帮助使某些类型的yabo88滚球绘图更容易。例如,我们可能希望减少偏斜以帮助绘图(当有这么多异常值时)。最常用的函数是log,square root和inverse。缩放也可以在具有不同测量单位的yabo88滚球上进行。 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

规范化 可思yabo88滚球-www.sykv.cn,sykv.com

虽然规范化也将值重新调整为0-1的范围,但目的是转换yabo88滚球以使其正常分布。为什么? 可思yabo88滚球-www.sykv.cn,sykv.com

因为在大多数情况下,如果我们要使用依赖于正态分布yabo88滚球的统计方法,我们会对yabo88滚球进行标准化。怎样完成? 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

可以使用日志功能,也可以使用其中一种方法。 可思yabo88滚球-人工智能资讯平台sykv.com

根据使用的缩放方法,yabo88滚球分布的形状可能会发生变化。例如“标准Z分数”和“学生t统计量”保留了形状,而日志功能则没有。

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

? 可思yabo88滚球sykv.com,sykv.cn

?

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

规范化与缩放(使用特征缩放) 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

缺失值

可思yabo88滚球sykv.com,sykv.cn

鉴于缺失值是不可避免的,让我们在遇到它们时该怎么做。有三种或许更多的方法来处理它们。

可思yabo88滚球-人工智能资讯平台sykv.com

一、Drop 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

如果列中的缺失值很少发生并且随机发生,那么最简单和最正确的解决方案是删除具有缺失值的观察值(行)。如果缺少大多数列的值,并且随机发生,则典型的决定是删除整列。

可思yabo88滚球sykv.com,sykv.cn

这在进行统计分析时特别有用。

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

二、Impute 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

这意味着根据其他观察结果计算缺失值。有很多方法可以做到这一点:

可思yabo88滚球sykv.com

1、使用统计值,如均值,中位数。但是,这些都不能保证获得无偏的yabo88滚球,特别是在有许多缺失值的情况下。 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

当原始yabo88滚球不偏斜时,平均值最有用,而中值更稳健,对异常值不敏感。在正态分布的yabo88滚球中,可以获得与均值相差2个标准偏差的所有值。接下来,通过生成之间的随机数填写缺失值(mean?—?2 * std) & (mean + 2 * std): 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

rand = np.random.randint(average_age - 2*std_age, average_age + 2*std_age, size =count_nan_age) dataframe["age"][np.isnan(dataframe["age"])] = rand

可思yabo88滚球sykv.com,sykv.cn

2、使用线性回归。根据现有yabo88滚球,可以计算出两个变量之间的最佳拟合线,比如房价与面积m2。值得一提的是,线性回归模型对异常值很敏感。 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

3、Hot-deck:从其他类似记录中复制值。这仅在你有足够的可用yabo88滚球时才有用。并且,它可以应用于数值的且已经分类的yabo88滚球。

内容来自可思yabo88滚球sykv.com

另外我们还可以采用随机方法,用随机值填充缺失值。进一步采用这种方法,可以先将yabo88滚球集分成两组,基于某些特征,比如性别,然后随机分别填写不同性别的缺失值。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

三、Flag

内容来自可思yabo88滚球sykv.com

一些人认为,无论我们使用何种插补方法,填写缺失值都会导致信息丢失。这是因为说缺少yabo88滚球本身就是信息性的,算法知道它。当丢失的yabo88滚球不是随机发生时,这一点尤为重要。举一个例子,一个特定种族的大多数人拒绝回答某个问题。

可思yabo88滚球-www.sykv.cn,sykv.com

丢失的yabo88滚球可以用例如0填充,但在计算任何统计值或绘制分布时必须忽略这些零。虽然分类yabo88滚球可以用“缺失”填写:一个新的类别,它告诉我们缺少这一yabo88滚球。 可思yabo88滚球-www.sykv.cn,sykv.com

离群(极端)值 可思yabo88滚球-人工智能资讯平台sykv.com

它们的值与所有其他观察值显着不同。远离Q1和Q3四分位数的任何yabo88滚球值(1.5 * IQR)都被认为是异常值。 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

在被证明之前,异常值是无辜的。话虽如此,除非有充分理由,否则不应删除它们。例如,人们可以注意到一些不太可能发生的奇怪的,可疑的值,因此决定将它们删除。虽然,他们值得调查之前删除。 可思yabo88滚球-www.sykv.cn,sykv.com

值得一提的是,某些模型,如线性回归,对异常值非常敏感。换句话说,异常值可能会使模型脱离大多数yabo88滚球所在的位置。 可思yabo88滚球-人工智能资讯平台sykv.com

记录和交叉yabo88滚球集错误

可思yabo88滚球-www.sykv.cn,sykv.com

这些错误是由于在同一行中有两个或多个值,或者是在彼此相互矛盾的yabo88滚球集中。例如,如果我们有一个关于城市生活成本的yabo88滚球集。总列数必须等于租金,运输和食物的总和。同样,孩子不能结婚。员工的工资不能低于计算的税额。相同的想法适用于不同yabo88滚球集的相关yabo88滚球。

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

验证 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

完成后,应通过重新检查yabo88滚球并确保其规则和约束确实存在来验证正确性。

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

例如,在填写缺失yabo88滚球后,它们可能违反任何规则和约束。如果不可能,可能会涉及一些手动校正。 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

报告

可思yabo88滚球-www.sykv.cn,sykv.com

报告yabo88滚球的健康程度对清洁同样重要。如前所述,软件包或库可以生成所做更改的报告,违反了哪些规则以及多少次。 可思yabo88滚球-www.sykv.cn,sykv.com

除了记录违规外,还应考虑这些错误的原因。为什么他们发生?

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

总结 可思yabo88滚球sykv.com

我很高兴你能坚持到最后。但是,如果不接受质量文化,所提到的内容都没有价值。

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

无论验证和清理过程多么强大和强大,随着新yabo88滚球的进入,我们必须将继续受苦。最好是保护自己免受疾病的侵害,而不是花时间和精力去补救它。 可思yabo88滚球sykv.com,sykv.cn

文章原标题《the-ultimate-guide-to-data-cleaning》

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

作者:OMAR ELGABRY译者:乌拉乌拉

内容来自可思yabo88滚球sykv.com

相关文章:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片 匿名?

关于我们?? 免责声明?? 广告合作?? 版权声明?? 联系方式?? 原创投稿?? 网站地图??

Copyright?2005-2019 Sykv.com 可思yabo88滚球 版权所有 ?? ICP备案:京ICP备14056871号

人工智能资讯?? 人工智能资讯?? 人工智能资讯?? 人工智能资讯

?扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭