麦教授|随机

2021年5月8日 00:00
來源:香港奇点财经专栏作家麦教授

奇点财经推送于5月17日

概率和统计里经常有专业的术语,让人望而却步,然而一旦了解了它们背后的意义,其实并不会太复杂。用术语的原因是可以让定义更标准化,从数学上讲不会有歧义,但是很多术语翻译成了中文就会显得像天书一样。随机变量(random variable)就是这样一个术语。

在代数里,我们会用一个变量,例如x,来表述一个可能变化的数字。变量(可以变化的量)这个词的英文variable的词根veri就是变化的意思。例如我们想描述股价,可以定义一个变量来记录每天股价的情况。今天股价是5块3,那么就让x取值5.30。明天股价是5块5,那么就可以在明天让x取值为5.50。

上面例子使用的变量在同一时间不能有超过一个值。而随机变量有可能的取值可以有多个,而且根据概率,可以随机地取其中的任何一个值。例如投硬币可以有两个结果:正面或反面(也叫头和尾),这两个结果叫“事件”(event),所有可能的事件的集合叫样本空间(sample space),于是投硬币这个随机变量的样本空间可以写成S={头,尾}。同理,投6个面的骰子的样本空间可以写成S={1,2,3,4,5,6}。

骰子有非常久远的历史,目前西方比较一致的观点认为最早的骰子出现在埃及,两千多年前古埃及的骰子是羊骨做的四面体。上图是纽约大都会博物馆收藏的20面骰子,每个面上刻着一个希腊字母,专家估计是公元前2世纪到公元后4世纪之间出现的。目前考古学界认为这样的骰子不是用来玩游戏的,而是用来占卜的。两者其实没有太大的区别,都是人类做不了决定时,希望由天意来决定。

据明代郎瑛的《七修类稿》记载,中国的骰子是三国时曹植发明的,也是用来占卜。后来山东的战国墓出土了骰子把中国玩骰子的历史又向前推到了春秋战国(公元前770年-公元前221年)时期。

中国的骰子和国外的骰子有一个重要的不同:国外的骰子各个点数都是同一种颜色,而中国骰子的一点和四点是红色的。一点被染成红色是因为它是万物之始,老子的《道德经》第四十二章写道:道生一,一生二,二生三,三生万物。四点被染成红色据说是因为唐玄宗和杨贵妃玩骰子时需要出现四点才能赢,结果果然出现了四点,为了纪念“天意”,唐玄宗李隆基命令把四点也染成红色。

骰子或硬币远远不能提供现代世界对随机数字的需求。1940年代中期,兰德公司创造了一台机器,可以用随机脉冲发生器生成数字。他们运行了一段时间,并将结果收集到一本书中,名为《100万个随机数字与10万个正态偏差》。现在这看上去像是一个艺术项目,但在当时却是一个突破。第一次人类有了一个漂亮、高质量的随机数长序列。

说回随机变量,它和普通变量的区别是:随机变量的取值是一个函数(function函数是另一个看上去很复杂,但其实很简单的术语)。

函数类似一个黑盒子,就是做映射,你给它提供一个输入,它就给你一个输出。例如你把一头猪输入进了肉联厂这个函数里,它的输出就是香肠或罐头。同理,一个做摄氏度到华氏度计算的函数就可以把输入的37摄氏度换算成华氏度,计算过程是:(37°C × 9/5) + 32 = 98.6°F。如果输出用y表示,那么  。

有了这个基础,随机变量就很好理解了。一个随机变量有时候会取某些值(如香肠,如骰子的三点),另外的时候取另外一些值(如罐头,如骰子的四点)。我们可以通过观察这些取值的频率来研究不同取值发生的几率多大。

一个随机过程,可以看成那个那个肉联厂,一头猪输入进去之后,它会随机产生香肠或罐头,我们不知道下一个出来的是什么,但是我们可以观察到生产了1000个产品之后,其中700个是香肠,另外300个是罐头。那么我们就可以知道生产香肠的概率是700/1000=70%。同理,我们扔了6000次骰子之后会发现每个点数出现的几率都在1000左右,扔无数次后,每个点数出现的概率一定是1/6。

假设我们有一个投硬币的实验。投掷之后有两种可能的结果,可能是头或尾。我们可以用x来表示随机变量,它代表这个随机过程的结果。

如果结果是头,我们可以把结果写成:x=1。如果结果是尾,就写成x=0。这里的随机变量x是将随机过程(抛硬币)的结果映射到数值(0和1)上。实际上也可以映射到文字,例如x=正面。

“肉联厂产出香肠的概率是70%”这件事,写成公式就是P(x=香肠)=70%。于是,我们投一个公平的硬币的概率也可以写出来了:P(x=头)=P(x=尾)=50%。同样的道理,股市涨的概率也可以写出来P(x=涨)。只是这个值根据观察的时间长短会变化,不同的时间段,不同的股票得到的值都不一样。

随机变量让我们比较容易处理随机过程的结果,可以对随机事件做进一步的计算和推演。

随机变量可以是离散的,也可以是连续的。如果一个变量可以取数个不同的值,那么它就是一个离散型随机变量。

例如:在投2枚硬币的实验中,我们需要找出“头”出现的次数。在这种情况下,“头出现的次数”是个随机变量,它可能取的值是0,1和2,这个样本空间是离散的。因此S={0,1,2}。

如果一个随机变量在一个区间内可以取的值是无限的,那么它就是连续的。比如说,在一个城市里,气温可以在-10度和35度的区间内取任何值,于是这个连续随机变量的样本空间是  。因此,温度可以是-8.22度或22.59度。当目前温度大约是23度时,就意味着温度可以是22.999087度或23.000001度。在连续随机变量的情况下,我们很多时候关心的不是某个值出现的概率,而是某个区间的值出现的概率。

例如,我们会感兴趣股票跌幅在1%到3%这个区间的概率(公式是  ,其中  表示股价的变化)。但我们不会关心股票跌了正好1%的概率(在遇到连续随机变量时,取到任何一个确定值的概率都是0,也就是说  )。

在金融市场里做模型时往往把回报率(rate of returns)作为一个随机变量,而不是把股价当做随机变量。回报率往往会取对数得到连续复合收益,原因是这样可以用加减法计算对数回报,一段时间内的每个对数回报加总起来就可以得到这段时间的累积回报。

概率的本质是是在计算事件在样本空间里发生的百分比。理解了这个道理,后面复杂的概念其实就都很简单了。在我们举过的猪肉加工的例子里,样本空间就是一个具有两个事件的集合:{香肠,罐头}。香肠的概率就是看到香肠的总次数(700次)除以看到样本空间里所有事件总次数(1000次)的结果。

计算概率的时候,如果条件简单(例如想知道某一次投硬币出现“头”的概率),那么样本空间很容易定义,就不容易出错。在现实中,样本空间可以非常复杂,概率里的每一个条件都可能把样本空间和要考虑的事件都改变了。

金融市场里各种事件的关系及其复杂,如何定义随机变量并找到相应的样本空间,并用恰当的概率和统计理论来描述各种事件,这是所有量化模型都要解决的主要议题。(本文编辑:卜彬彬)

作者简介:张晓泉,张晓泉教授(Michael 麦教授)是香港中文大学商学院副院长和终身教授,担任香港深圳联合金融研究中心的主任,在经济学和管理学的多家顶级期刊发表多篇论文。他从美国麻省理工学院(MIT)的斯隆管理学院(Sloan School of Management)获得管理学博士学位,此前在清华大学获得管理学硕士,工学学士和文学学士的学位。 他曾经从事过的工作有:投资银行分析师,证券公司顾问, 目前运营一个A股量化私募基金。

(声明:欢迎登陆网站https://sfl.gloal/或关注公众号“奇点财经HK”。如需转载请向[email protected]提出书面申请。奇点财经是全球首家提供多语种及专注于ESG投资与金融科技领域的媒体,是香港期刊协会创会会员。)


友情提示:请下载奇点财经APP(点击 IOS版 或 安卓版)或关注奇点财经公众号(奇点财经HK)以得更全面的信息。