辛普森悖论在数据集方面显得宽泛且没有分解成有意义的片段。辛普森悖论是研究中被忽略的“混杂变量”的结果。混杂变量本质上是与核心研究无关的变量,它随着自变量的变化而变化。例如,移动应用程序的用户群,其中10,000人使用Android设备,5,000人使用iOS设备。用户整体转化率5%,iOS设备4%,Android设备5.5%:假设相同的货币化(即Android用户在游戏中的花费与iOS用户一样多),资源有限的产品经理可能会做出一些极端的决定基于这些数据,或许会优先开发Android功能,甚至干脆取消iOS项目。但是,当数据进一步按设备细分时,用户群体的不同情况如下:现在发现iOS平板的转化率比安卓平板高一点,iOS手机的转化率也高于安卓手机。如果看到这一点,产品经理可能会对未来的产品做出一系列不同的决定。在这种情况下,设备类型是一个混杂变量:当数据按设备类型划分时,子组具有完全无法比较的统计特性。之所以iOS在设备转化率上胜过Android,而在整体水平上却输给了Android,是因为各个平台的设备类型不同:平板电脑的转化率高于手机。在这个用户群体中,iOS平板电脑占iOS设备的比例(30%)低于安卓平板电脑(80%),尽管安卓平板电脑的转化率低于IOS。将数据混合在一起成为一个巨大的问题,比较两组具有完全不同属性的事物——就像比较苹果和橙子一样。出于以下几个原因,混杂变量通常用于分析免费增值产品:1.基数。由于固有的低转化率,免费增值产品需要庞大的用户群才能产生收入。这些庞大的用户通常来自世界各地,来自不同的地区,使用的设备种类繁多。这种多样性的呈现使得比较后的平均值几乎没有意义;2.LTV曲线。免费增值产品受益于长尾货币化曲线。对于娱乐消费的用户,消费指标可能非常接近,可以作为分界线。3、大部分用户不会消费。前面提到的免费增值产品固有的低转化率存在于两种类型的用户之间的基本区别:付费和非付费。出于这个原因,任何将非付费用户群视为一个整体的指标都是有缺陷的,因为它使所有指标都偏向于绝大多数永远不会付费的用户(这就是为什么最小可行指标模型包括ARPU和ARPPU)避免辛普森悖论(关于用户群的结论不能反映不同类型的用户与产品交互的现实)的关键是维度分析的明智应用。用户细分在数据分析中非常重要,尤其是对于freemium产品,“普通用户”不仅不存在,而且他的特征起到警示作用,避免开发者被误导。当存在具有广泛不同特征的用户群时,通用数据是无用的。当涉及到产品开发路线图时,用户细分至关重要:如果数据分析表明哪些功能被确定为具有高价值而优先开发,它也决定了应该推销谁来扩大用户群。也正是因为如此,通过聚类分析得出似是而非的结论,不仅会导致错误的功能开发,还会给用户群增加更多错误的用户。为避免这种情况,用于确定功能开发优先级的基本维度(“过滤器”或用户特征)应该根据用户分类进行粗略设置。对于移动产品,最基本的设置通常包括:位置(国家)设备(平台、外形、设备型号)获取来源;早期行为线索(例如盈利/参与里程碑);加入日期(以控制季节性)对于某些收购渠道(如Facebook),其他人口统计数据点(如年龄、性别等)也可能是重点。分析这些维度提供了比之前引用的“iOS和Android”示例更强大的见解。归根结底的目标是为实际使用它的人改进产品。如果这种分析是在一个错误的前提下进行的,那么用户的真正问题将得不到解决。
