数据结构论坛

注册

 

发新话题 回复该主题

如何用EXCEL做出GO分类图及关键基 [复制链接]

1#
北京哪里有治疗白癜风的 https://disease.39.net/bjzkbdfyy/250316/v7vbbbq.html

小编最近在整理各种转录组数据,悲催的是小编不会编程,这不是难为人吗?不过好在我的excel分析用的还算说得过去,今天来回顾下怎样通过excel画出高逼格的go分类图及关键基因搜索分析~

手把手教你用EXCEL做高大上的GO分类图

首先,我们先了解一下数据结构,GO注释包含三个主要分支,即:生物学过程(BiologicalProcess),分子功能(MolecularFunction)和细胞组分(CellularComponent),因此各个公司给出的结果图如下:

这样我们就需要整理出二级分类及三级分类数据及每个分类数据的相应基因数(在此以不同的组合为例,想画哪个部分的图,可以随意组合或选择基因整理哦,),如下:

注意:左侧两列数据格式一定要按照这个格式整理,否则会影响画图。

补充一点,数据统计可以通过数据透视表实现,或者countif公式实现,若有需要详细了解的,小编可以下次专门给大家介绍数据统计工具。

第二步,画图。

初步得到的图真是粗俗不堪,下一步就要进入美化阶段了。

(1)将图片放大到足够显示每个小的go分类,可以看清楚文字;

增加纵坐标标题,“设计”—“添加图表元素”—“轴坐标”—“主要纵坐标轴”,手动输入“Numberofgenes”;

(2)删除图表标题,若需要可以保留,将图例拖至右上角;

(3)设置网格线,选择“无线条”;

(4)选择所有图表文字,字体“TimesNewRoman”,字号“10”;

(5)坐标轴设置,选中纵坐标—右键单击,选中“轮廓”,颜色:黑色;选中横坐标—右键单击,选中“轮廓”,颜色:黑色;

补充:若想设置纵坐标最大值,可在修改“边界”处的“最大值”,标签数字间隔修改,可在坐标轴选项中的“单位”设置“主要”值。

(6)设置坐标轴格式,右键单击,选择“设置坐标轴格式”,设置轴刻度标记。

(7)设置图片边框,选中图片边框,右键单击,“设置图表区域格式”,边框“实线”,颜色“黑色”。

至此,与初始图片已经有了天壤之别,离文章图片仅差最后一步图片保存了,选中图表,导出为pdf格式。

如果您有其他数据分析的需求,可以直接留言和小编约稿。

教你用EXCEL做关键基因搜索及分析

问题一:关键基因筛选(通过“关键词”查找)

解决方案:数据“筛选”功能

通过“数据”菜单栏下的“筛选”功能可以对每列实现自动筛选功能,点击在表格第一行右下角的下拉箭头,可以出现文本筛选,输入关键词,即可筛选出感兴趣的关键基因。需要对每列都进行筛选。

问题二:关键基因相关数据整合(整合不同表格中的数据)

解决方案:Vlookup函数

VLOOKUP是一个查找函数,给定一个查找的目标,它就能从指定的查找区域中查找返回想要查找到的值。所有的测序项目中,数据分析时的基因名称或ID都是唯一的,正好完美地匹配了vlookup函数的要求,以保证数据匹配的唯一性。

它的基本语法为:

=VLOOKUP(查找目标,查找范围,返回值的列数,精确OR模糊查找)

第一个参数(查找目标)必须是数据中的唯一匹配项,如果不唯一,返回值会自动匹配为第一个找到的数据结果;

第二个参数(查找范围)可以在同一个文件,也可以跨文件查找,但必须是以包含第一个参数的利作为起始列,可以选择列,也可以选择固定区域;

第三个参数(返回值的列数)必须是整数,是待匹配数据在查找范围区域的第几列;

第四个参数(精确OR模糊查找),精确即完全一样,模糊即包含的意思,小编通常默认为0.

匹配上第一个数后,选中该单元格,待右下角出现“+”时,双击或下拉即可完成所有数据的匹配项。

问题三:关键基因数据汇总(数据汇总统计)

解决方案:1、数据透视表(简单)

2、函数:countifsumif(难度高)

3、函数:数据“筛选”功能(简单+模糊搜索)

1、数据透视表(简单)

Excel自带的智能数据统计功能,掌握这一技能足以让你在数据分析中事半功倍。该功能嵌入在“插入”菜单下的“数据透视表”,可以选择一个sheet下分析,也可以选择新建工作表进行分析,因测序数据一般涉及的数据较多,很难一个页面全部展现,因此推荐在新建的工作表中进行。

具体操作如下:

操作时仅需要将右上方的字段拖拽到下方的表格内即可,可以选择合适的展现形式,一般是对基因id的计数居多。如果是对数据做求和计算,可以通过点击“Σ值”里面的选项后面的箭头进行设置,如下:

该项统计只支持精确统计,必须完全匹配,若有空格或字符数字的差异均采用不同的项进行计数。

2、函数:countifsumif(难度高)

Countif是指对指定条件的单元格进行计数(单条件计数),语法如下:

=COUNTIF(range,criteria)

参数range表示条件区域——对单元格进行计数的区域。

参数criteria表示条件——条件的形式可以是数字、表达式或文本,甚至可以使用通配符。

Sumif是条件求和函数,语法如下:

=SUMIF(range,criteria,sum_range)

参数:Range为条件区域,用于条件判断的单元格区域。

参数:Criteria是求和条件,由数字、逻辑表达式等组成的判定条件。

参数:Sum_range为实际求和区域,需要求和的单元格、区域或引用。

注:因篇幅有限,在此不再详细举例,若有需要可以给小编留言或约稿。

3、函数:数据“筛选”功能(简单+模糊搜索)

操作方法同第一个问题的解决方案,支持计数功能,统计数量在excel的底部,如图。

分享 转发
TOP
发新话题 回复该主题