WK01 Introduction 课程总体介绍

一、课程的主要内容

前半学期主要以R软件的操作为主,学习R语言的基础知识;后半学期开始,涉及相关统计知识的学习,但不会涉及特别“高深”的内容。重点在于软件操作、方法原理与数据分析的实际应用,不在于数学形式的推导。

具体的内容包括:

  1. R软件基础介绍(2课时)
  • 介绍R与Rstudio界面、Markdown语言格式、R包的安装方式、R及开源软件在现代社会科学研究和可重复研究中的地位。
  1. 数据类型(2课时)
  • 介绍向量、矩阵、数组、数据框、列表五种数据基本类型的建立方式与命令语言。
  1. 数据管理(4课时)
  • 数据输入、合并、转换、读入和保存,变量的生成、转换、定义标签、选取子数据集。
  1. 数据描述(2课时)
  • 频次分布制表,集中趋势与离散趋势描述及相关统计描述。
  1. 图表绘制(2课时)
  • R语言绘图的基本函数命令,以及散点图、条形图、箱线图等基本统计图形的制作、修改、编辑、保存与合并。
  1. 概率分布(4课时)
  • 概率分布的基本内容及绘制概率分布图形、计算概率的R语言命令。
  1. 参数估计(4课时)
  • 单变量、双变量的均值与均值差、比例与比例差、方差与方差比的置信区间估计的基本原理与R语言命令。
  1. 假设检验(4课时)
  • 单样本、双样本、多样本经典假设检验的基本思想及检验效力计算与相关R命令。
  1. 方差分析(2课时)
  • 单因素、双因素、多因素方差分析、协方差分析的原理及R命令。
  1. 线性回归(4课时)
  • 一元及多元线性回归、回归诊断的基本原理与R命令。

二、适合对象

适合的对象包括但不限于以下同学:

  1. 对统计方法感兴趣的;
  2. 对开源软件感兴趣的;
  3. 对实证研究感兴趣的;
  4. 对上述内容有实际需求的;
  5. 有志于从事实证方法教学的;
  6. 爱折腾的……

不适合的对象包括但不限于以下同学:

  1. 对上述内容没有实际需求或感到极度头疼的;
  2. 对英语感到极度头疼的;
  3. 对键盘式命令操作极度头疼的;
  4. 不爱折腾的。

三、推荐教材

  • 本人的电子文档。文档内容目前已交由清华大学出版社出版。

  • Robert I. Kabacoff. 2016. 《R语言实践》(R in Action). 人民邮电出版社。

  • 贾俊平, 2014, 《统计学:基于R》,中国人民大学出版社。

  • 吴喜之,2014,《统计学:基于R的应用》,中国人民大学出版社。

教材可以不购买,有若干网络免费资源可供选择。上课过程中会一一细述。

推荐常去以下网站:

  • http://www.r-project.org/ R语言官网
  • http://cos.name/ 统计之都
  • http://cos.name/cn/ 统计之都中文论坛
  • http://f.dataguru.cn/forum.php 炼数成金网
  • http://statmethods.net/index.html 《R语言实战》作者的网页 Quick-R

四、考核方式

一次期中作业,一次期末开卷考试(意思=本课程保过……)。

平时成绩占40%,期末成绩占60%。

五、电脑的软硬件要求

本课程需要结合个人电脑进行。修读最好配有个人的笔记本电脑,不限windows平台、Mac平台还是Linux平台;或者能有充分的机会接触到电脑及相关软件。先在R镜像站点下载安装符合自身操作系统的、最新版本的R软件,然后再安装Rstudio软件,并在老师指导下完成相关设置。有条件者,可同时安装中文Ctex套装及Texstudio或Lyx套装,阅读相关的Latex教材,以生成漂亮美观的课件与报告。此处推荐安装的所有软件均为免费的开源软件,无需支付版权费用,请各自百度或Google下载最新版本即可。

  • 软件来源
    • R:http://www.r-project.org/
    • Rstudio:http://www.rstudio.com/products/rstudio/download/
  • 关于版本
    • 本学期内,大家使用R 3.0以上和Rstudio v1.0以上版本已经足够。课程进行期间没有必要升级,避免不必要的麻烦。开源的软件的升级比一般商业软件的升级通常要复杂。

安装和初步使用提醒:

  1. 先安装R,再安装Rstudio。试一试其中的knit功能,如果提示要求安装相关包,请选择是。

  2. 按下Knit HTML键后(初次使用会要求你安装一系列的包,默认下载安装即可),会生成两个文件:一个网页,一个Rmd文件(后一个文件其实可以用记事本打开)。这两个文件通常都做保存。如果实在想节省空间,可只保存Rmd文件。每次关闭文件后再重新打开并更改文件,也在Rmd文件上修改并保存。

  3. 可以按Kint word生成word文档;如果配置了Latex引擎,可以生成pdf(但对中文支持尚不十分友好)。

  4. 可以设定工作目录。先用getwd()查询当前工作目录(working directory),然后使用形如setwd("D:/xkdog/statsoft/R2014/R2014fall")的形式设定当前工作目录。设定完后再使用getwd()做检查。注意,路径名称的大小写敏感、且应当为英文+数字的组合,不要出现中文字符;另外,R中使用的斜杠(/)而不是反斜杠(\)表示路径分隔符。

六、Why R?

  • 理由1:开源,免费(什么,中国还有“不免费”的软件?)
  • 理由2:体积小巧、功能强大、画图漂亮、语法自由(需要正确地理解和充分地训练)
  • 理由3:为了显示哥的与众不同……

七、示例

做描述统计:

summary(cars)

画图:

{r fig.width=7, fig.height=6} plot(cars)

什么,这也好意思叫强大、漂亮?

不要逼我出绝招啦!!! 请看示例!

  • http://www.statmethods.net/graphs/scatterplot.html
  • http://cos.name/chinar/
  • http://cos.name/2009/07/drawing-china-map-using-r/#comment-5348
  • http://yihui.name/cn/publication/
  • 其他, 自己搜索……

八、关于Markdown语言的简洁说明

  1. 一个#表示一级标题,二个#表示二级标题,依次类推;
  2. 空一段表示断行,而不是简单的敲一个回车表示断行;
  3. 斜体 (一对星号)表示斜体,加粗 (一对双星号)表示加粗;
  4. 其余的请参见Markdown Quick Reference,或者如下网址:
    • 英文的:
    • http://kbroman.github.io/knitr_knutshell/
    • http://daringfireball.net/projects/markdown/syntax * 中文的:http://www.ituring.com.cn/article/775 * 使用苹果电脑的:http://www.jianshu.com/p/1e402922ee32/

另外,Markdown语言支持以下这些符号前面加上反斜杠来帮助插入普通的符号:

符号 名称
\ 反斜线
* 星号
_ 底线
{} 花括号
[] 方括号
() 括弧
# 井字号
+ 加号
- 减号
. 英文句点
! 惊叹号

最后,RMarkdown语言兼容Latex语言(当然背后可能涉及一定特殊的设定)。对于需要处理数学公式的人来说,这真是它的一大亮点。还记得这两个函数吗?