社会学数据分析中的数据清洗

数据清理是数据分析的关键部分,尤其是当您收集自己的定量数据时。收集数据后,必须将其输入计算机程序,如SAS、SPSS或Excel。在这个过程中,无论是手工操作还是计算机扫描仪操作,都会出现错误。无论数据输入得多么仔细,错误都是不可避免的。这可能意味着不正确的编码、不正确的书面代码读取、不正确的黑点感应、丢失数据等。数据清理是检测和纠正这些编码错误的过程。...

数据清理是数据分析的关键部分,尤其是当您收集自己的定量数据时。收集数据后,必须将其输入计算机程序,如SAS、SPSS或Excel。在这个过程中,无论是手工操作还是计算机扫描仪操作,都会出现错误。无论数据输入得多么仔细,错误都是不可避免的。这可能意味着不正确的编码、不正确的书面代码读取、不正确的黑点感应、丢失数据等。数据清理是检测和纠正这些编码错误的过程。

Small business

需要对数据集执行两种类型的数据清理。它们可能是代码清理和应急清理。这两个因素对数据分析过程都至关重要,因为如果忽略,几乎总是会产生误导性的研究结果。

可能的代码清理

任何给定变量都将有一组指定的答案选项和代码,以匹配每个答案选项。例如,变量性别将有三个答案选项和代码:1表示男性,2表示女性,0表示无答案。如果您将此变量的应答者编码为6,则很明显出现了错误,因为这不是可能的应答代码。可能的代码清理是检查数据文件中是否只显示分配给每个问题的答案选项的代码(可能的代码)。

一些可用于数据输入的计算机程序和统计软件包在输入数据时检查这些类型的错误。在这里,用户在输入数据之前为每个问题定义可能的代码。然后,如果输入了超出预定义可能性的数字,则会显示错误消息。例如,如果用户试图输入6作为性别,计算机可能会发出嘟嘟声并拒绝输入代码。其他计算机程序被设计用来测试已完成数据文件中的非法代码。也就是说,如果在数据输入过程中没有如刚才所述检查这些文件,则可以在数据输入完成后检查文件的编码错误。

如果您没有使用在数据输入过程中检查编码错误的计算机程序,您可以通过检查数据集中每个项目的响应分布来定位某些错误。例如,您可以为变量性别生成一个频率表,在这里您将看到错误输入的数字6。然后可以在数据文件中搜索该条目并更正它。

应急清理

第二种类型的数据清理称为意外清理,比可能的代码清理稍微复杂一些。数据的逻辑结构可能会对某些受访者的回答或某些变量施加某些限制。应急清理是检查只有那些本应具有特定变量数据的案例才具有此类数据的过程。例如,假设您有一份调查问卷,其中您询问受访者他们怀孕了多少次。所有女性受访者都应在数据中注明答案。然而,男性应该留白,或者应该有一个特殊的密码来表示没有回答。例如,如果数据中的任何男性被编码为有3次怀孕,你就知道有错误,需要更正。

工具书类

巴比,E.(2001年)。社会研究实践:第9版。加利福尼亚州贝尔蒙特:沃兹沃思·汤姆森。

  • 发表于 2021-10-03 02:26
  • 阅读 ( 143 )
  • 分类:数学

你可能感兴趣的文章

充分利用Bleetbit的7个技巧,一个“用于linux的ccleaner”

...覆盖可用磁盘空间的选项。这将覆盖隐藏在可用磁盘空间中的已删除文件,确保其他应用程序删除的文件被覆盖。要启用此功能,请使用“首选项”窗口中的“驱动器”选项卡在系统的每个分区上添加一个可写文件夹。如果您只...

  • 发布于 2021-04-12 09:21
  • 阅读 ( 195 )

新的英国基因图谱显示了哪些入侵创造了英国的dna

...因数据被编辑完成——这个过程花了20年——然后根据DNA中的差异和相似性将其分类。
 研究显示,在入侵英国的所有势力中,只有盎格鲁撒克逊人具有持久的基因效应。参与研究的人与现在的德国人分享了近30%的DNA,而英格...

  • 发布于 2021-04-29 08:22
  • 阅读 ( 159 )

职业聚光灯:我作为数据科学家的工作

...家咖啡店坐一会儿,毫无疑问你会无意中听到有人在谈论数据分析。是什么?谁在处理这些数字?数据科学家的工作是在大量数据中发现模式,并将其与现实世界的决策联系起来。在大量数据中寻找趋势是一个非常简单的概念,...

  • 发布于 2021-05-19 11:27
  • 阅读 ( 248 )

种族清洗(ethnic cleansing)和种族灭绝(genocide)的区别

种族清洗和种族灭绝是非常相似的概念,指的是杀害和摧毁整个人口。虽然这两种行为的暴力程度和残忍程度相当相似,但就犯罪的范围和意图而言,存在一些差异。此外,“灭绝种族罪”根据国际法被确认为一项独立的罪行,...

  • 发布于 2021-06-25 02:14
  • 阅读 ( 466 )

内容分析(content analysis)和语篇分析(discourse analysis)的区别

...些数据? 数据是如何定义的? 从哪些人群中提取数据? 数据分析的背景是什么? 分析的界限是什么? 推论的目标是什么? 什么是语篇分析(discourse ****ysis)? 语篇分析一词在各个学科中也有不同的定义和含义。它可以概括为...

  • 发布于 2021-06-28 04:44
  • 阅读 ( 937 )

数据争用(data wrangling)和数据清理(data cleaning)的区别

...盾的数据。此外,这种不一致的数据可能由于传输或存储中的损坏而发生。 此外,可以通过使用数据争用工具或脚本来执行数据清理。数据清理可以包括一些活动,例如删除印刷错误,或者根据已知的实体列表验证和更正值。...

  • 发布于 2021-07-02 00:30
  • 阅读 ( 2102 )

社会学(sociology)和人类学(anthropology)的区别

由于社会学和人类学的相似性,许多学院把它们合并为一个系。然而,这两门社会科学之间存在一些关键的差异,本文旨在阐明这些差异。 总结表格 社会学 人类学 从人际交往和其他社会方面研究社会 研究社会中的人的...

  • 发布于 2021-07-03 06:26
  • 阅读 ( 290 )

互联网社会学与数字社会学

互联网社会学是社会学的一个分支领域,研究人员关注互联网如何在调解和促进交流与互动方面发挥作用,以及互联网如何更广泛地影响社会生活。数字社会学是一个相关和类似的子领域,然而,其中的研究人员关注的是与Web2....

  • 发布于 2021-09-11 17:18
  • 阅读 ( 313 )

定性研究方法综述

...用统计运算来确定变量之间的因果关系和相关关系。 在社会学中,定性研究通常侧重于构成日常生活的社会互动的微观层面,而定量研究通常侧重于宏观层面的趋势和现象。 关键外卖 定性研究的方法包括: 观察和浸泡 采...

  • 发布于 2021-09-12 06:21
  • 阅读 ( 212 )

社会学中的有效性理解

...分析。 信度与效度的关系 当涉及到提供准确和有用的数据分析时,所有领域的社会学家和科学家都必须在他们的研究中保持一定的有效性和可靠性。所有有效的数据都是可靠的,但仅靠可靠性并不能确保实验的有效性。 例...

  • 发布于 2021-09-22 18:15
  • 阅读 ( 182 )
atst04
atst04

0 篇文章

相关推荐