2024-05-02 01:48:20

R读取CEL数据提示文件无效,请问怎么回事?

通过GEO中http下载原始CEL数据然后通过affy,limma包分析处理,可是当用justRMA函数读取CEL数据时提示CEL数据无效,而且怕CEL数据是损坏的又重新从GEO下载CEL数据依然不行。尝试读取其他平台的CEL数据就可以。如下:

代码:

image15.png

控制台:

image16.png

请问怎么回事呢?真心各种百度也没有找到原因。


回答 0 评论
您已邀请来回答问题
生物信息学×

4个回答

你注意到是部分文件无效了吗?比如,142/143并没有报错。我建议还是要考虑下载的CEL文件不完整。另外,这个GEO有118例样本,比较多,就不建议从原始文件(cel)开始分析,不如从matrix开始,直接做差异表达分析。


2024-05-02 02:03:30

1 .cel文件 我们一般是整个数据集全部预处理然后再提取需要的样本的表达谱,前面预处理过程只用你选的样本与用全部的样本进行标准化是有区别的,

2 我们一般是把.cel文件单独放在一个文件夹,然后justRMA(),没有设置任何参数,都是默认的,如:setwd("路径")#此路径只放整个数据集合的.cel文件,可以是没有解压缩的.cel.gz文件,eset_rma <- justRMA()


2024-05-02 02:09:47

看了你的代码和运行报错提示,可以估计存在以下问题:你的cel文件名称部分或全部与实验设计数据框里面不一致。建议GSE4302文件夹里面的cel文件名统一改成GSMXXX.CEL,然后检查必须与实验设计数据框名称一致(这个地方很容易出错),否则RMA无法读取数据的。


2024-05-02 02:12:34

这个问题是需要在做差异分析之前处理的,在这之前有一步操作是探针id转换成gene symbol,分以下几种情况:

1,多个探针id对应一个gene symbol,取算术平均值;

2,一个探针对应多个gene symbol或者一对空,删除探针所在的行,即对应的所有样本的表达值。用代码可以实现。apply函数或者limma包中的avereps函数,具体使用可以参考官方说明文档。


2024-05-02 02:13:21

你的回答