科百科
当前位置: 首页 范文大全

ab指标怎么看图(如何判定正确观察指标)

时间:2023-06-16 作者: 小编 阅读量: 4 栏目名: 范文大全

如果置信区间同为正或同为负,说明试验结果是统计显著的。统计显著和效果显著统计显著说明当前的样本容量条件下已经检测出试验版本和对照版本的差异。非统计显著情况下,我们取最小重要变化δ为指定值,计算针对此效果的统计功效。不过,我们还可以通过统计功效对它进行进一步的检验。

ab指标怎么看图?作者:暗影泰迪链接:http://www.zhihu.com/question/413257874/answer/1400166922来源:知乎著作权归作者所有商业转载请联系作者获得授权,非商业转载请注明出处,今天小编就来聊一聊关于ab指标怎么看图?接下来我们就一起去研究一下吧!

ab指标怎么看图

作者:暗影泰迪链接:http://www.zhihu.com/question/413257874/answer/1400166922来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

错误检查

试验开始之后的短时间内(几个小时或者1天),我们应该通过实时观察来检查试验数据是否表现正常,也就是检查是否有程序错误。如果包括原始版本在内的任一版本没有数据显示或者和正常数据相比有很大的、异常的差异,说明试验可能在集成环节出现问题,或者存在程序错误。这时需要停止试验,重新检查调试。

置信区间的解读

若短时间内的数据正常,试验应继续运行至预定的结束时间,然后就可以分析和解读试验数据,进而做出决策了。一般而言,这个试验时段大概是至少1-2个周,这样才能得出较为准确的结果。

我们主要通过某个指标的试验版本(均值)变化值以及置信区间来判断,在这个指标上,试验版本是否比对照版本(原始版本)表现得更好。

如果置信区间同为正或同为负,说明试验结果是统计显著的。如果置信区间为一正一负,说明试验结果是非统计显著的。

统计显著和效果显著

统计显著说明当前的样本容量条件下已经检测出试验版本和对照版本的差异。如果这个差异(变化)是正的,是不是说我们就可以下结论试验版本比对照版本好,应该发布该试验版本了呢?

以表格中 Case1 到 Case5 这 5 个试验版本的试验数据为例,Case1, Case2 和 Case3 结果都是统计显著的,Case4 和 Case5 是非统计显著的,我们还能做进一步的判断吗?

这里我们应该区分两个不同的概念:统计显著效果显著。统计显著不等于真实效果显著,它只说明当前的统计功效下检测出了试验版本和对照版本的差异,但是这个差异有可能是非常小的,在实际应用中微不足道的。

因此,试验版本的结果只有兼备统计显著和效果显著两个特征,该版本才是可用的,值得发布的。这里,我们需要引入一个“最小重要变化”的概念来帮助我们判断和决策。最小重要变化是一个最小的可接受的效果标准,检测到的效果差异只有在此标准之上,我们才认为它是有实际价值的。这个标准通常由指标的具体意义和我们的优化需求来确定,例如 1% 或者 5%。

通过下面的图示我们看一下怎么应用最小重要变化这个标准来对试验数据做进一步的判断。

最小重要变化 δ 为 5% 的情况下,我们可以做如下判断:

  • Case1 的整个置信区间都在最小重要变化之上,它是效果显著的;
  • Case2 的置信区间跨越了最小重要变化,它的效果是否显著是不确定的;
  • Case3 的整个置信区间都在最小重要变化之下,它的效果是不显著的;
  • Case4 的置信区间跨越了最小重要变化,它的效果是否显著是不确定的;
  • Case5 的整个置信区间都在最小重要变化之下,它的效果是不显著的;

    简而言之,在置信区间为正的情况下,只有其下限大于最小重要变化(而不是0),试验版本才是效果显著的。

    最后试验数据的解读结果总结如下:

    只有 Case1 是有实际效果的可用版本。

    解读非统计显著

    前面我们提到,如果置信区间为一正一负,说明试验结果是非统计显著的。非统计显著说明当前收集的样本数据和试验的原假设(试验版本和对照版本没有差异)是一致的,注意,这并不意味着原假设是正确的

    以上面例子中的 Case4 为例,置信区间包含了 0(原假设),说明样本数据和原假设不冲突;但是,它同样包含了 5.6%,也就是说,版本的差异可能是 0,也可能是 5.6%,或者置信区间内的其他值。

    也就是说,非统计显著只能说明当前的统计功效较小,不足以检测出试验版本和对照版本的真正差异。这个差异有可能很小,所以当前的样本容量即使较大也检测不出来;差异也有可能较大,但是因为样本容量较小,或者方差较大,导致统计功效小,同样检测不出来。

    因此,在非统计显著的情况下,我们同样需要对实际效果做进一步的解读,这个手段依然是置信区间和最小重要变化。

    上面的例子中,最小重要变化为 5% 的情况下,Case4 和 Case5 都是非统计显著,它们的效果如下:

  • Case4 的置信区间跨越了最小重要变化,它的效果是否显著是不确定的;
  • Case5 的整个置信区间都在最小重要变化之下,它的效果是不显著的;

    根据效果可做如下判断:

  • Case4 情况下我们不能得出可用的结论;
  • Case5 情况下可以下结论版本差异很小,应维持原假设;

    对于 Case4 这种情况我们应该怎么办呢?前面说了,差异可能较大,但是统计功效较小,我们不能下结论版本是否存在重要差异。

    因为试验的统计功效取决于样本容量大小、样本数据的方差和试验方式等因素,我们可以通过这几方面的数据来决定下一步的对策:

  • 如果试验已经充分进行(足够的时间,足够的样本容量),说明样本的方差较大,试验难以检测出版本差异,这种情况下我们可以重新设计和进行新的试验,改进统计功效;
  • 如果试验进行的时间不够(如不到 7 天),或者样本容量可能不够(根据 App 用户数大致判断),可以继续进行试验到足够时间和用户数,随着试验的进行,样本方差可能会减少,置信区间会进一步收敛;统计功效的计算和解读

    统计功效的作用是用来在置信区间的基础之上做进一步的判断。在统计显著和非统计显著这两种情况下统计功效的计算方式和解读稍有不同。

    非统计显著时的统计功效

    非统计显著时我们很可能做出决策——维持原假设,这样我们可能会犯第 II 类错误(取伪错误,原假设为假时未拒绝原假设,这个错误概率记为 β),我们要尽量减少这类错误 β 的概率,最好在 20% 以下。

    统计功效 power = 1 - β,是指版本差异(效果)为某个指定值时,通过显著性检验能正确地把差异检验出来的概率。非统计显著情况下,我们取最小重要变化 δ 为指定值,计算针对此效果的统计功效。因为效果越大,统计功效越大;如果最小效果的统计功效足够,说明其他更大效果的统计功效也都是足够的

    只要统计功效足够大,就保证了我们犯第 II 类错误的概率足够小。如果 power > 80%,说明原假设为假(存在大于 δ 的差异)时,我们做出正确判断(拒绝原假设)的可能是足够大的,只有不到 20% 的概率可能出错。

    下面我们看看不同情况下怎么解读统计功效。

    我们先看 Case5 这种情况(非统计显著、效果不显著),前面说过,这种情况基本可以下结论维持原假设了。不过,我们还可以通过统计功效对它进行进一步的检验。如果统计功效是 60%,说明功效一般,我们犯错的概率还是比较大;如果统计功效是 80%,说明功效足够,我们犯错的概率较小,我们之所以得到非统计显著的结果,是因为真实差异确实很小,而不是因为统计功效不够,因此,我们可以放心地维持原假设。

    对于 Case4 这种情况(非统计显著、效果不确定),我们可以通过统计功效辅助决策下一步的行动:下结论拒绝原假设还是继续试验一段时间然后再观察结果。如果统计功效大于 80%,说明试验已经充分进行(足够的时间,足够的样本容量),很可能样本的方差较大,试验难以检测出版本差异,这种情况下我们可以重新设计和进行新的试验,改进统计功效。如果统计功效很小(如 30%),很可能是样本容量可能不够,可以继续进行试验到足够时间和用户数。

    统计显著时的统计功效

    统计显著的情况下,我们取置信区间的最小边界值(Case1 就是 6.4%)为指定值,计算针对此效果的统计功效。

    为什么要用最小边界值为指定值呢?因为置信区间是对真实差异的一个区间估计,而最小边界值是其中绝对值最小的值,如果该效果的统计功效足够,说明置信区间内的其他更大效果的检测所需的统计功效也都是足够的。

    在统计显著的情况下,统计功效主要用来针对 Case1 这种效果显著的情况来进行进一步的深入判断。因为是用最小边界值得到的统计功效,所以我们降低对它的功效要求。一般来说,该功效大于 50% (功效一般)我们就可以认为功效满足要求了;如果小于 50%,我们有理由怀疑统计功效不足导致置信区间的精度不够,为了得到更放心的结果,建议继续试验和观察。

    • 推荐阅读
    • 男票qq上你的备注是啥(沙雕女票给男友的qq备注)

      男票qq上你的备注是啥?(好欣慰,八戒多年的心愿得偿,终于娶到嫦娥妹妹啦!有一天老公打电话来,孩子吓的不敢接电话,说是坏蛋。)13、我老公比较二,我备注“二老公”,有次我妈看到我手机响,把她吓一跳。

    • 吕后的匈奴情书(汉墓壁画舂米人)

      很久以前,生活在郪江边一对相爱的青年男女乐语和虚言,因为乐语家贫穷而拿不出聘礼,于是虚言为了嫁给乐语,便将家里祖传“神奇石臼”的秘密告诉了乐语,让乐语祈求石臼给他米粮变卖钱财。乐语就按照虚言所说的暗暗祈祷,果真如此,每天晚上夜深人静时他都可以得到一石米,每天他都可以到集市上变卖钱财以便积攒礼金。在一个漆黑的夜晚,乐语竟真的变成了一幅石刻,陪伴在虚言的墓室,终日劳作,却从无怨言。

    • 一看就开车的ID(一看就开车的ID有哪些)

      麻麻说爱要专情粑粑说爱要勇敢,现在小编就来说说关于一看就开车的ID?下面内容希望能帮助到你,我们来一起看看吧!一看就开车的ID麻麻说爱要专情粑粑说爱要勇敢美女蹦叉叉.帅哥么么哒.シ①曲、陌離歌ヾシ①首、陌離別ヾ在水一方、只为伊人笑千里追随、只为君回首男人彡心Ⅱ意女人没心没肺贼拉美.★々疯男人ˇ●々傻女人ˇ嗜橘少年的空城哀歌

    • 开始一段新的感情说说(开启一段新的感情句子)

      开始一段新的感情说说俗话说的好,摆脱一段失败的感情最好办法就是开启一段新的感情!结束一段感情的最好方式是开启一段新的恋情,但眼睛不擦亮可能又是一朵烂桃花。一段感情真正结束的标志,不是说分手,不是互不理睬,不是删除电话...是开启一段新的感情,心里的人替换了。我们后悔和放不下的,未必是那个人,而是那段回忆,因为没有珍惜而失去的幸福,才最为难过。

    • 芝麻能吃吗能治疗哪些疾病(真正对健康产生威胁的原来是这类疾病)

      在今天这个时代,真正对老百姓健康产生威胁的就是慢性非传染性疾病。芝麻中含有丰富的营养素,具有强大的抗氧化性,称得上是预防慢性病的“功臣”。亚油酸含量的多或少,也就是必需脂肪酸含量的多或少,是评价一种食物所含油脂质量的高或低,对人体产生影响是好还是坏的重要指标。芝麻酚可以起到抗氧化的作用,维持心脑血管弹性,调节血脂。所以,芝麻虽小,却称得上是预防慢性非传染性疾病的“功臣”。

    • 糖醋虾滑窍门(糖醋虾滑的做法)

      糖醋虾滑窍门原料:青虾、葱、姜。青虾仁打碎,加入微量的淀粉、蛋清等,然后摔打、搅拌,虾滑完成。倒入白酒搅拌,沥干表面的水份用盐、胡椒粉、料酒腌15分钟。

    • 小河淌水歌词(小河淌水歌曲简介)

      《小河淌水》歌词如下:哎~~~,接下来我们就来聊聊关于小河淌水歌词?以下内容大家不妨参考一二希望能帮到您!小河淌水歌词《小河淌水》歌词如下:哎~~~月亮出来亮汪汪亮汪汪想起我的阿哥在深山哥像月亮天上走天上走哥啊哥啊哥啊山下小河淌水清悠悠----哎~~~月亮出来照半坡照半坡望见月亮想起我阿哥一阵清风吹上坡吹上坡哥啊哥啊哥啊你可听见阿妹叫阿哥《小河淌水》是一首云南民歌,由尹宜公创作于1947年。

    • 2022年郑州经开区第5批公租房名单 郑州高新区公租房最新公示2020

      经开区2022年度第5批取得公租房保障资格对象信息公开表发布主体:经济技术开发区建设局发布时间:2022-06-30点击查看:经开区2022年度第5批取得公租房保障资格对象信息公开表.xlsx扩展:郑州申请公租房低保条件是什么?郑州申请公租房条件低保要求:家庭人均月收入低于本市低保标准6倍(含)。从2021年7月1日开始,全市城乡最低生活保障标准统一调整为每人每月740元。

    • 祖父的园子作者回忆了童年的哪些场景(具体场景内容)

      跟着祖父在园子里栽花、拔草、铲地等,我来为大家科普一下关于祖父的园子作者回忆了童年的哪些场景?下面希望有你要的答案,我们一起来看看吧!“我”玩累了,就在房子底下找个阴凉的地方睡着了。作家萧红,笔名萧红,原名张廼莹。1933年萧红自费出版第一本作品合集《跋涉》。在鲁迅的帮助和支持下,1935年发表了成名作《生死场》。1940年与端木蕻良同抵香港,之后发表了中篇小说《马伯乐》和著名长篇小说《呼兰河传》。

    • 苏州居住证领取方式(苏州居住证办理流程)

      第八条公安机关负责居住证的申领受理、制作、发放、签注等证件管理工作。年满16周岁,因务工、经商等拟在居住地居住6个月以上的流动人口,应当在申报居住登记的同时申领居住证。第十二条居住证由县级公安机关签发,每年签注1次。居住证持有人自居住证使用功能中止之日起30日内补办签注手续的,其居住证使用功能恢复,在居住地的居住期限连续计算;超出30日补办签注手续的,其在居住地居住期限自补办居住证签注之日起重新计算。