WK01 Introduction 课程总体介绍
一、课程的主要内容
前半学期主要以R软件的操作为主,学习R语言的基础知识;后半学期开始,涉及相关统计知识的学习,但不会涉及特别“高深”的内容。重点在于软件操作、方法原理与数据分析的实际应用,不在于数学形式的推导。
具体的内容包括:
- R软件基础介绍(2课时)
- 介绍R与Rstudio界面、Markdown语言格式、R包的安装方式、R及开源软件在现代社会科学研究和可重复研究中的地位。
- 数据类型(2课时)
- 介绍向量、矩阵、数组、数据框、列表五种数据基本类型的建立方式与命令语言。
- 数据管理(4课时)
- 数据输入、合并、转换、读入和保存,变量的生成、转换、定义标签、选取子数据集。
- 数据描述(2课时)
- 频次分布制表,集中趋势与离散趋势描述及相关统计描述。
- 图表绘制(2课时)
- R语言绘图的基本函数命令,以及散点图、条形图、箱线图等基本统计图形的制作、修改、编辑、保存与合并。
- 概率分布(4课时)
- 概率分布的基本内容及绘制概率分布图形、计算概率的R语言命令。
- 参数估计(4课时)
- 单变量、双变量的均值与均值差、比例与比例差、方差与方差比的置信区间估计的基本原理与R语言命令。
- 假设检验(4课时)
- 单样本、双样本、多样本经典假设检验的基本思想及检验效力计算与相关R命令。
- 方差分析(2课时)
- 单因素、双因素、多因素方差分析、协方差分析的原理及R命令。
- 线性回归(4课时)
- 一元及多元线性回归、回归诊断的基本原理与R命令。
二、适合对象
适合的对象包括但不限于以下同学:
- 对统计方法感兴趣的;
- 对开源软件感兴趣的;
- 对实证研究感兴趣的;
- 对上述内容有实际需求的;
- 有志于从事实证方法教学的;
- 爱折腾的……
不适合的对象包括但不限于以下同学:
- 对上述内容没有实际需求或感到极度头疼的;
- 对英语感到极度头疼的;
- 对键盘式命令操作极度头疼的;
- 不爱折腾的。
三、推荐教材
-
本人的电子文档。文档内容目前已交由清华大学出版社出版。
-
Robert I. Kabacoff. 2016. 《R语言实践》(R in Action). 人民邮电出版社。
-
贾俊平, 2014, 《统计学:基于R》,中国人民大学出版社。
-
吴喜之,2014,《统计学:基于R的应用》,中国人民大学出版社。
教材可以不购买,有若干网络免费资源可供选择。上课过程中会一一细述。
推荐常去以下网站:
- http://www.r-project.org/ R语言官网
- http://cos.name/ 统计之都
- http://cos.name/cn/ 统计之都中文论坛
- http://f.dataguru.cn/forum.php 炼数成金网
- http://statmethods.net/index.html 《R语言实战》作者的网页 Quick-R
四、考核方式
一次期中作业,一次期末开卷考试(意思=本课程保过……)。
平时成绩占40%,期末成绩占60%。
五、电脑的软硬件要求
本课程需要结合个人电脑进行。修读最好配有个人的笔记本电脑,不限windows平台、Mac平台还是Linux平台;或者能有充分的机会接触到电脑及相关软件。先在R镜像站点下载安装符合自身操作系统的、最新版本的R软件,然后再安装Rstudio软件,并在老师指导下完成相关设置。有条件者,可同时安装中文Ctex套装及Texstudio或Lyx套装,阅读相关的Latex教材,以生成漂亮美观的课件与报告。此处推荐安装的所有软件均为免费的开源软件,无需支付版权费用,请各自百度或Google下载最新版本即可。
- 软件来源
- R:http://www.r-project.org/
- Rstudio:http://www.rstudio.com/products/rstudio/download/
- 关于版本
- 本学期内,大家使用R 3.0以上和Rstudio v1.0以上版本已经足够。课程进行期间没有必要升级,避免不必要的麻烦。开源的软件的升级比一般商业软件的升级通常要复杂。
安装和初步使用提醒:
-
先安装R,再安装Rstudio。试一试其中的knit功能,如果提示要求安装相关包,请选择是。
-
按下Knit HTML键后(初次使用会要求你安装一系列的包,默认下载安装即可),会生成两个文件:一个网页,一个Rmd文件(后一个文件其实可以用记事本打开)。这两个文件通常都做保存。如果实在想节省空间,可只保存Rmd文件。每次关闭文件后再重新打开并更改文件,也在Rmd文件上修改并保存。
-
可以按Kint word生成word文档;如果配置了Latex引擎,可以生成pdf(但对中文支持尚不十分友好)。
-
可以设定工作目录。先用
getwd()
查询当前工作目录(working directory),然后使用形如setwd("D:/xkdog/statsoft/R2014/R2014fall")
的形式设定当前工作目录。设定完后再使用getwd()
做检查。注意,路径名称的大小写敏感、且应当为英文+数字的组合,不要出现中文字符;另外,R中使用的斜杠(/)而不是反斜杠(\)表示路径分隔符。
六、Why R?
- 理由1:开源,免费(什么,中国还有“不免费”的软件?)
- 理由2:体积小巧、功能强大、画图漂亮、语法自由(需要正确地理解和充分地训练)
- 理由3:为了显示哥的与众不同……
七、示例
做描述统计:
summary(cars)
画图:
{r fig.width=7, fig.height=6}
plot(cars)
什么,这也好意思叫强大、漂亮?
不要逼我出绝招啦!!! 请看示例!
- http://www.statmethods.net/graphs/scatterplot.html
- http://cos.name/chinar/
- http://cos.name/2009/07/drawing-china-map-using-r/#comment-5348
- http://yihui.name/cn/publication/
- 其他, 自己搜索……
八、关于Markdown语言的简洁说明
- 一个#表示一级标题,二个#表示二级标题,依次类推;
- 空一段表示断行,而不是简单的敲一个回车表示断行;
- 斜体 (一对星号)表示斜体,加粗 (一对双星号)表示加粗;
- 其余的请参见Markdown Quick Reference,或者如下网址:
- 英文的:
- http://kbroman.github.io/knitr_knutshell/
- http://daringfireball.net/projects/markdown/syntax * 中文的:http://www.ituring.com.cn/article/775 * 使用苹果电脑的:http://www.jianshu.com/p/1e402922ee32/
另外,Markdown语言支持以下这些符号前面加上反斜杠来帮助插入普通的符号:
符号 | 名称 |
---|---|
\ | 反斜线 |
* | 星号 |
_ | 底线 |
{} | 花括号 |
[] | 方括号 |
() | 括弧 |
# | 井字号 |
+ | 加号 |
- | 减号 |
. | 英文句点 |
! | 惊叹号 |
最后,RMarkdown语言兼容Latex语言(当然背后可能涉及一定特殊的设定)。对于需要处理数学公式的人来说,这真是它的一大亮点。还记得这两个函数吗?