交付频率数据分析


从2018年起,团队一直在做数据度量与分析相关的工作,今天就以大数据应用团队发布的“交付频率”分析指标为例,看看在BI上实现的可视化分析应用。

交付频率定义:统计周期内平均每月投产次数

视图一:每月交付频率TOP20(数据范围从2018-01-01到2019-05-01)

图中可以看到交付频率最高KAVEN系统,平均每月交付7.38次,堪称火箭一样的速度。

视图二:系统两个版本投产间隔天数(KAVEN系统)

从左图看到KAVEN两个版本投产间隔绝大多数情况小于5天,右图为数据示例说明,投产间隔越小而且有固定频率的越好。

视图三:系统交付频率趋势分析

图中的点代表每一次投产,纵坐标为相邻两次投产间隔天数,红色线代表交付频率趋势线。从上图可以看到,从2018年最初每2.167天投产一次到目前 3.005天投产一次,频率有所降低,但不管怎么样,KAVEN都太优秀了,想想那些还在20天以外徘徊的“活跃项目”估计已经哭晕在厕所。

分析优化过程

交付频率中的趋势线是对所有的离散点进行线性回归得出的一条直线。线性回归,能够用一个直线较为精确地描述数据之间的关系,通过线性回归构造出来的函数一般称之为了线性回归模型。
最初通过线性回归模型得出的图形是这样的:

这是否有点问题,有几个值太大了,影响了整体的数据准确度,所以先进行处理。经过箱线图分布,排队异常值之后得到图形如下,明显好多了。

把数据放到BI系统上呈现出来后,我哭了……说好的直线呢?

经过一翻排查,原因很简单,线性回归算出来的值小数后面多达11位小数,而BI上仅支持最多3位小数,把后面值舍弃了,当然就不能生成直线了。

最后,为了生成出真正的直线,只选用了第一个点与最后一个点,“两点一线”,从线性回归模型可以看到,线的斜率是一样的,所以理论上任何的点都应该在这条直线上。最终生成了下面这个效果,虽然可能会有万分之几的误差,但这种精度对于我们的场景已经完全足够了。

相关链接

扩展阅读:
机器学习–线性回归
https://blog.csdn.net/weixin_42398658/article/details/83501330
箱线图的理解
https://blog.csdn.net/ningyanggege/article/details/82625947


文章作者: KavenRan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 KavenRan !
 上一篇
Superset集成LDAP经验总结 Superset集成LDAP经验总结
团队需要解决Superset的单点登录问题,看网上有集成LDAP的经验,根据配置但并未成功,经过摸索和阅读源码,终于搞定了,分享一下。 环境说明 version: 0.28.1 安装方式:docker 配置修改修改配置文件:/usr/lo
2019-06-06
下一篇 
knowage-6.3.0中文版全网首发 knowage-6.3.0中文版全网首发
中文版升级日志 所有界面及提示文字汉化 扩展文档标题支持中文 扩展文档标题20个字符长度限制 扩展图表类型支持highchart,从默认6个图表类型扩展到9个 优化内存设置 解决登录后报错: An error has occur
2019-05-11
  目录