关于paralogs建树和基因家族分析的粗浅了解

首先,系统发育研究里用ASTRAL-PRO可以实现基因家族树-物种树的估计,这个过程里实际上给出了祖先所拥有的基因数目的概率信息。构建基因家族树也可以直观看到基因是否发生了复制/丢失事件。

比较基因组分析里的CAFE分析,把基因家族数目当作特征,利用生灭过程给出了节点状态的概率分布,重建节点状态。但是这里没有考虑基因树信息。

如果有了一个具体的基因树,自然是不需要CAFE来做基因家族扩张收缩的分析的,看看那些分子生物学结合的研究就可以知道。而在组学分析里是不需要具体的基因树的,所以直接将其当作数量性状做重建就可以了,如此可以节省大量的基因树计算的时间。

基因家族动态应该是很敏感的,稀疏的节点状态是很难准确估计的,而且功能-基因分析里,祖先状态并不是一个必要信息,而是作为一种矫正。这里可以引用辛普森悖论。考虑这样一种情况,某基因里抗性的AT高,敏感的AT低,但支系之间AT含量不同,且部分支系由于长期的演化已经产生了适应,表现出补偿效应,有一个较低AT的支系已经表现出综合抗性的,并占据新的生态位,并由此产生了辐射进化,多样性极大丰富。如此一来,在统计抗感性状和AT含量时,就会发现大部分物种AT低则有抗性,AT高则抗性不强,得到与事实相反的结论。而在现实研究里,补偿效应可以通过组学分析直接得到,很难讲系统发育历史对表型有什么直接的、跨越基因相似性的影响,更多的是作为补充证据。

科学是基于经验总结规律然后不断验证,但是实际上科学是对抗经验的,亦或是科学的目的是摆脱经验的依赖,这甚至可以是科学的定义,并指导了我们的一切。我在学习的时候必然要学习经验、形成经验,但是最终,我要摆脱经验,如此才是一个完整的工作。

补充一些待探索的名词:reconciliation(这是一种和msc类似的解决基因树-物种树冲突的过程),orthovenn软件自带了基因家族扩张收缩的树表示(而非基于生灭过程的)。

这个有时间看看能不能把流程整合一下。