Python是数据处理的常用语言,当然也可以用在教育学领域。下面以一篇期刊论文——为例,阐述使用Python处理教育学领域数据的思路和过程。为什么用这篇期刊文章呢,因为这篇文章的数据处理是我做的,比较熟,不用琢磨作者们的思路,也不用重新收集数据再复现,比较省事……
在教育学研究中,数据类型的分类如下:
访谈相关数据,以访谈得到的录音、文本为主; 实证研究的数据,以问卷数据为主; 文献相关数据,包括文献题录数据、文献数据库数据等; 学习行为数据,使用相关学习行为记录设备、智能设备、手机APP等记录得到的学习者的学习行为数据。相应的,数据处理的目的包括如下几个方面:
数据的编码与转换;数据清洗,包括异常值、奇异值、缺失值的处理,数据格式统一等;数据的分类计算、筛选、规整、合并等。数据概览,包括常规统计指标计算、数据分布、区间统计、对比图表等。数据处理是数据分析和定量研究的先导性工作,选取和合适的工具决定着研究效率。数据处理的工具很多,Excel、R、Python、MATLAB和其他数据处理软件等。常规数据处理建议使用Excel,若涉及到批量、重复的处理多个数据文件,处理逻辑较为复杂,建议使用Excel自带的VBA,R或者Python完成数据处理工作。作者对Python比较熟悉,所以本文使用Python举例子。
在本研究中,数据类型是第3种、即文献相关数据,数据处理的目的是数据清洗和数据的分类计算、筛选、规整、合并等,数据处理逻辑相对复杂,使用的是Python编程处理。不同的数据类型、数据处理目的需要不同的思路和做法,下文仅以本研究为例,阐述数据处理的过程。
将本研究定义的世界一流大学(138所)和我国世界一流大学建设高校(42所)的发文数据从爱思唯尔的数据库中下载下来,得到的数据如下图:12个excel文件,后缀为.xls。
点开可以可以看到数据格式如下。
可以看到,excel的数据格式以不规则数据表的形式呈现,且每个excel中有多个sheet,每个sheet表征一所大学各个学科的发文数据,sheet的前几行最关键的信息是大学名称,下方数据表每行代表该所大学每个二级学科的发文特征。
每个sheet滑动到底部,可以看到每个数据表有330多条数据,每个Excel有几十个sheet(每个sheet代表一所高校,包含该所大学2014-2019年在各个学科发文数据)。本研究的数据处理的目的是:对这些数据进行处理,以一级学科为行、各个大学为列进行整理、合并,为下面以学科发文结构为基础的大学类型的聚类分析和接下来的建设评价做基础,要实现这个处理目的当然也是手动复制粘贴,但是每所高校的一级学科的位置并不固定、需要处理的sheet和Excel文件过多,手动复制粘贴性价比不是特别高,所以本研究使用的处理方法是使用Python编程整理相应数据。
本文使用一级学科表征数据,将数据库中涉及到的一级学科先提取出来,放置在一个.txt文件中。爱思唯尔数据库将所有学科分为27个。
本研究共需要6个指标:Scholarly Output、Scholarly Output (growth %)、Citations Authors、Authors (growth %)、Citations per Publication、Field-weighted Citation Impact。
所有指标均在sheet的下方的数据表里,由于sheet格式不规则,假如不是特别精通pandas的话,推荐使用xlrd和xlwt读写这种不规则的excel表,其中xlrd读取原excel表,xlwt生成新excel表。此外涉及到多个excel文件的循环读写,还需使用python自带的os模块。所以本研究用到的Python模块如下。
import xlrd import xlwt import os待处理数据分析完毕后,分析输出数据的格式。从前面分析过程可知,需要输出180所高校在27个一级学科上的表现,衡量方式以6项指标表征。可以看到这是一个三维数据。
为了在二维的excel表格中输出三维数据,将高校设为纵坐标,一级学科设为横坐标,同时在6个sheet中呈现反映各个高校的各个一级学科在6个指标中的表现情况,数据形式参见下文第三部分的数据处理结果。
分析到这里,数据处理的思路总结起来也是很简单的。
数据处理过程的核心思想是:按照输出的数据格式循环处理每个输入的sheet表。输出的excel表有6个sheet,每个sheet代表一个指标。我的思路是分指标循环进行提取。由于数据处理代码的复用性不高,在这里列举伪代码如下:
循环1:按指标循环: 循环2:按学校循环: 抽取各个学校的相应指标再得到相应的数据后,使用xlwt,按照我们预计的格式,写入到Excel中,得到我们的结果,代码如下。
def data_excel(workbook, subject, school_subject, name): sheet = workbook.add_sheet(name) for i in range(len(subject)): sheet.write(i+1, 0, subject[i]) # 生成每个学校的内容 ii = 1 for school in school_subject: school_col = school_subject[school] sheet.write(0, ii, school) jj = 1 for col in school_col: sheet.write(jj, ii, school_col[col]) jj += 1 ii += 1 print(name + '已完成') return workbook with open(r'data/发文表现情况整理/学科.txt','r') as f: subject = f.read().split('\n') dataPath = 'data/发文表现情况整理/data/' path_type = ['abroad','china'] nameGroup = ['Scholarly Output','Scholarly Output growth','Citations','Authors','Authors growth','Citations per Publication','Field-weighted Citation'] for ii in range(2): t= path_type[ii] path = dataPath + t + '/' workbook = xlwt.Workbook(encoding = 'utf-8') for i in range(7): school_subject = get_school_subject(i) workbook = data_excel(workbook, subject, school_subject, nameGroup[i]) workbook.save(r'data/发文表现情况整理/result/result-{}.xls'.format(path_type[ii])) print('\n\n')好的,太长不看,直接看结果……
横坐标是学科,纵坐标是高校,每个sheet是指标,已经达到了预期的数据处理目标,据说相对于手工处理而言,极大的提高了效率,对于一个曾经的工科学生的体会是,这些机械重复的事情为什么要自己做……
本研究凝聚了作者们的大量心血和老师们的精心指导,在这里向他们表示由衷的感谢和敬意!数据处理只是本研究一个微小的方面,希望大家多多关注论文内容,多多拍砖。将这数据处理部分展现出来一方面是希望能够回顾和总结做过的工作,现在回想起来这部分工作也并不复杂(都做完了哪还有觉得复杂的道理- -);另一方面也是希望梳理一下教育学的数据处理的类型和方法,以期为自己在将来的研究中提供一种“就这,这些数据处理我都能做”的错觉,增强一点自己的科研自信心。