CHIP-seq数据处理自学教程

打开R

 

统计基因组某结构域的数目

    1. 下载蛋白质数据,来源可以来自三大基因组数据库,也可以是任何氨基酸序列,格式为fa.
    2. 下载安装hmmer,方法自己看说明书
    3. 去pfam找到某结构域的hmm模型,下载得到hmm文件,比如ig.hmm等等
    4. for i in (ls *.hmm); do hmmpress $i;done
    5. hmmsearch查找结构域数量
    6. 统计行数

       
    7. 用excel打开summary.txt,所有数字-13,用分列功能把&分开,选中所有数据,插入数据透视表,x轴和y轴用分开的两列,透视内容为行数(不喜欢用excel的可以自己写perl脚本,几行就解决,我比较懒,不想写)
    8. done.

 

word转换文献标题为”title case”格式

写文章的时候,由于自己的文献软件插入的标题大小写不一致,有时候会需要把所有文献统一为标准的”title case”,即:

When writing a name or a title, it is a common convention to only use capital letters to start the principal words. This is called title case.

The principal words in a title are all the words which are not:

  • Articles (a, an, the)
  • Conjunctions (e.g., and, but, or)
  • Prepositions (e.g., on, in, with)

在word中,字母只能统一改成首字母大写或小写,不能智能地区分,在大量引用文献时,一个个单词检查会很麻烦且无意义。

解决办法1:

有一些专门的转换网站,例如:

778-219-1407

解决办法2:

利用office强大的宏命令解决,在word界面按alt+F8呼出宏命令界面,宏名输入MyTitleCase,点击创建。

在弹出的命令窗口,将如下代码粘贴,ctrl+s保存

使用方法:将想要转化的标题部分选中,alt+F8呼出宏界面,点击MyTitleCase,再点击运行,就可以看到文献变成了理想的格式。如图是一段全部小写的文字。

4025062584

alt+F8呼出宏,点击运行

(312) 547-6247

变成这样了!

p.s. 有些地方全部大写的术语缩写单词会自动变成首字母大写,要手动改一下,工作量小了很多,而且可以修改VB代码灵活添加例外库~

5163508684

ensembl

UCSC参考ensembl的,都差不多

NCBI

 

9786809969

linux上fdisk只能对2T以下的硬盘进行分区挂载操作,2T以上要使用parted命令

sudo parted

select /dev/sdb

mklabel gpt

mkpart primary 2048s 100%

print

quit

sudo mkfs.ext4   /dev/sdb1

mount /dev/sdb1 /yourfile

 

 

bioconductor 获取物种orgDB,txDB

biocondutor集成了很多模式物种的orgDB和txDb,但是对于有基因组的非模式物种,或者自己组装的物种,如何构建这两个Db就显得非常重要

1.通过AnnotationHub下载orgDb

2.通过gtf文件制作txDb

3.手工制作orgDb

参考下文

基因Gene Ontology从头注释以及富集分析

7047198364

bioconducor提供了一整套芯片数据分析的流程,芯片数据除了一开始的原始数据处理,在后面获得了表达矩阵以后,所有的流程都和转录组没有任何区别,今天学习一下这个套路。

1.下载数据

使用GEOquery包下载数据,得到ExpressionSet对象,如果是原始数据处理的话需要用到affy这个包,请自行学习,这里只介绍从GEO数据库下载的数据

2.差异分析

先构建分组矩阵和比较矩阵,然后limma一行出结果

 

3.绘制热图

用pheatmap绘制热图

 

4.富集分析

使用clusterprofiler进行

 

 

 

sva package 去除批次效应