今天我来和大家分享一下泊松分布(Poisson Distribution)在足球赔率中的实际应用。我相信大家在玩球的时候在某些网站或者APP中都能看到已经帮我们算好的泊松分布概率图。那这个究竟是怎么算出来的呢?大致原理又是什么呢?

 

首先,泊松分布是以法国数学家泊松(1781~1840) 命名的,这哥们厉害了,他是19世纪概率统计领域里的卓越人物,在数学统计领域中以他命名的理论除了泊松分布外,还有:泊松定理、泊松公式、泊松方程、泊松过程、泊松积分、泊松级数、泊松变换、泊松代数、泊松比、泊松流、泊松核、泊松括号、泊松稳定性、泊松积分表示、泊松求和法等。一个大写的服,我看就差泊松啪啪啪了~

 

那啥是个柏松分布?简单来说就是假设我们知道某一个事件的平均发生次数,并且假设事件与事件之间发生是相互独立的,那么我们就可以计算出这些不确定事件的发生概率分布。


泊松分布被运用到很多小概率事件上,比如二战中的V-2导弹袭击伦敦,交通事故的概率,放射性衰变等。同理,在足球场上的进球从某种程度上来说就是小概率事件,所以我们可以把定义中提到的事件换成进球。

 

那也就是说,如果我们知道对阵双方球队的预期进球数,1)我们就能得到一个囊括所有可能比分的概率分布图;2)根据比分概率分布,我们可以进而得出胜/平/负对应的概率;3)同理,我们还能得出大小2.5球,双方都进球等玩法的概率。

 

所以,现在问题的难点就是怎么确定对阵双方球队的预期进球数!下面我来根据EXCEL表格来说一个简单的思路和步骤:

 

1、确定研究目标:先确定你要研究的联赛,选定一个你熟悉的联赛入手。下文我以西甲为例!


2、 收集样本数据:收集目标联赛所有比赛数据(见下图),这里要注意样本的选择很有讲究,无论是股票分析还是赔率分析,样本数据年限跨度太长或太短都不好。太长,可能由于政策,规则,风格,人员变动,甚至政治因素等导致早期的数据失去意义;太短,导致样本较小缺乏说服力。


这些要自己进行试错,来找到一个合适的样本大小。我在这里以2003-2016赛季西甲联赛年所有比赛数据作为样本(按照主客场分类)。

 

2003-2015赛季同理…省略一堆贴图…

 

3、 汇总数据:把不同赛季相同球队的数据汇总相加,这里可以使用EXCEL的“数据透视表”功能(自行度娘),得到下面2张表:

 

4、计算各支球队的相对优势:这里的思路是把相对优势分为主队进攻相对优势&主队防守相对优势与客队进攻相对优势&客队防守相对优势。

 

以皇马举例来说:

皇马主场进攻相对优势 = 2.8988/1.5636 = 1.8540


解释一下:2.8988是上上一张表格中的皇马主场场均进球数;1.5636是所有球队主场平均进球数。相除之后得到的1.8540的含义是皇马的主场场均进球数相对于联赛主场平均进球数高了85.40%。也就是很屌的意思。

 

皇马主场防守相对优势 = 0.9798/1.13 = 0.8671

解释:0.9798是上上一张表格中的皇马主场场均失球数;1.13是所有球队主场平均失球数。相除之后得到的0.8671的含义是皇马的主场场均失球数相对于联赛主场平均失球数低了13.29%。还是很屌的意思。

 

同理再同理,就能得到下面这张表格:(为啥下表有这么多球队?因为十几个赛季降级升级进进出出周而复始所以在西甲露脸的就有很多球队啦~~)

5、 计算主客双方各自预期进球数:下面以2017赛季第1轮马德里竞技vs阿拉维斯的比赛为例。假设我们要预测这一场。。。

 

马德里竞技-主场预期进球数 = 马竞主场进攻相对优势 * 阿拉维斯客场防守相对优势 * 联赛主场平均场均进球数 = 1.2040 * 1.00984 * 1.5636 = 1.9011

 

阿拉维斯-客场预期进球数 = 阿拉维斯客场进攻相对优势 * 马竞主场相对防守优势 *联赛客场平均场均进球数 = 0.69867 * 0.7811 * 1.13 = 0.6166

 

6、开始计算泊松分布:文章刚开头我说了如果我们已知双方的预期进球数,那么就能得到一个囊括所有可能比分的概率分布图。这个功能EXCEL可以帮我们实现~请使用=POISSON.DIST(x,mean,cumulative) 公式~

 

x:进球数

mean:预期进球数

cumulative:选择false即可

 

好空洞啊,要死啊,还是看图说话吧~~

下图是我的终极表格,下拉栏任意选择[主队]和[客队]名称并设置好返还率后,就会得到泊松分布图,以及对应的胜平负概率,大小2.5球和都进球概率!

回到刚才说的公式 =POISSON.DIST(x,mean,cumulative)


(看下图) 我以0:0为例,即进球数为0,那么在A13单元格内的公式的含义为:=POISSON.DIST(主队进球个数0,主队预期进球数1.9011,FALSE) * POISSON.DIST(客队进球个数0,客队预期进球数0.6166,FALSE) = 8.0640%

 

再讲一遍,再讲一遍,再讲一遍,(看下图) 例如,C19单元格公式的含义为:=POISSON.DIST(主队进球个数3,主队预期进球数1.9011,FALSE) * POISSON.DIST(客队进球个数2,客队预期进球数0.6166,FALSE) = 1.7558%。 


明白了????其他单元格同理,就得出了一个泊松概率分布图!累~~~ PS:LEFT(C18) 与 RIGHT(C18) 意思是因为我表格中写的是比分,而公式中需要各自进球数,所以我用这两个公式转换一下。

7、 检测一下预测效果:所以现在这个泊松预测模型就相当于是用2003-2016的数据来预测2017赛季第1轮,以马竞vs阿拉维斯为例,实际比分为1:1,总进球小于2.5球,双方都有进球。 我们看下图预测结果貌似还不错~ PS:我这里的返还率是对赔率的进一步修正,需不需要看你自己。

8、写在最后的话:所有的模型都有他的假设前提,有假设前提那就有缺陷,就拿泊松分布来说假设事件与事件的发生是相互独立的,而实际中当一方进球后,肯定会影响到另一方的进球情况,比如放弃抵抗被血洗或是打了鸡血绝地反击,所以双方进球事件并不是相互独立的。


另外,模型的参数选择,参数条件数量,样本数据等等都会影响到他的准确度,而且很多参数也是无法量化的。这里我们讨论的模型方法仅是一个非常简单的思路而已。

 

最后,如果诸位想动手做一个泊松模型的话,关于数据样本大小,可以尝试不同的选择,比如可以选择最近12个月的比赛数据,然后进行持续更新,当新的一个月的数据被加入进样本后,就把最早的一个月数据删除,始终保持样本中含有最新的12个月的数据。

 

好了,今天说的有点多,辛苦写的希望你们看明白了,老规矩觉得有用就扣个6,我们下次见吧~~~

登录足球即时比分网足球比分直播跟踪比赛动态,海量足球分析、精准足球推荐、大数据足球预测一网打尽!

首页 首页

足球分析 分析

足球预测 预测

足球推荐 推荐

足球比分 比分

交易排行 排行

个人中心 我的