极大似然函数。 概率与统计——条件概率、全概率、贝叶斯、似然函数、极大似然估计

概率与统计——条件概率、全概率、贝叶斯、似然函数、极大似然估计

极大似然函数

什么是EM算法 最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。 最大期望算法经过两个步骤交替进行计算, 第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值; 第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。 M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。 1 似然函数 在数理统计学中, 似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 而极大似然就相当于最大可能的意思。 比如你一位同学和一位猎人一起外出打猎,一只野兔从前方窜过。 只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?你就会想,只发一枪便打中,由于猎人命中的概率一般大于你那位同学命中的概率,从而推断出这一枪应该是猎人射中的。 这个例子所作的推断就体现了最大似然法的基本思想。 多数情况下我们是根据已知条件来推算结果,而最大似然估计是已经知道了结果,然后寻求使该结果出现的可能性最大的条件,以此作为估计值。 求极大似然函数估计值的一般步骤:• 写出似然函数;• 对似然函数取对数,并整理;• 求导数,令导数为0,得到似然方程;• 解似然方程,得到的参数即为所求; 1. 4 EM算法 两枚硬币A和B,假定随机抛掷后正面朝上概率分别为PA,PB。 5 问题来了,如果我们不知道抛的硬币是A还是B呢(即硬币种类是隐变量),然后再轮流抛五轮,得到如下结果: 硬币 结果 统计 Unknown 正正反正反 3正-2反 Unknown 反反正正反 2正-3反 Unknown 正反反反反 1正-4反 Unknown 正反反正正 3正-2反 Unknown 反正正反反 2正-3反 OK,问题变得有意思了。 现在我们的目标没变,还是估计PA和PB,需要怎么做呢? 显然,此时我们多了一个硬币种类的隐变量,设为z,可以把它认为是一个5维的向量(z1,z2,z3,z4,z5 ,代表每次投掷时所使用的硬币,比如z1,就代表第一轮投掷时使用的硬币是A还是B。 但是,这个变量z不知道,就无法去估计PA和PB,所以,我们必须先估计出z,然后才能进一步估计PA和PB。 可要估计z,我们又得知道PA和PB,这样我们才能用极大似然概率法则去估计z,这不是鸡生蛋和蛋生鸡的问题吗,如何破? 答案就是先随机初始化一个PA和PB,用它来估计z,然后基于z,还是按照最大似然概率法则去估计新的PA和PB,然后依次循环,如果新估计出来的PA和PB和我们真实值差别很大,直到 PA和PB收敛到真实值为止。 7 然后,我们看看第一轮抛掷最可能是哪个硬币。 如果是硬币A,得出3正2反的概率为 0. 2 0. 2 0. 00512 如果是硬币B,得出3正2反的概率为0. 7 0. 7 0. 03087 然后依次求出其他4轮中的相应概率。 做成表格如下: 轮数 若是硬币A 若是硬币B 1 0. 00512,即0. 2 0. 2 0. 2 0. 8 0. 8,3正-2反 0. 03087,3正-2反 2 0. 02048,即0. 2 0. 2 0. 8 0. 8 0. 8,2正-3反 0. 01323,2正-3反 3 0. 08192,即0. 2 0. 8 0. 8 0. 8 0. 8,1正-4反 0. 00567,1正-4反 4 0. 00512,即0. 2 0. 2 0. 2 0. 8 0. 8,3正-2反 0. 03087,3正-2反 5 0. 02048,即0. 2 0. 2 0. 8 0. 8 0. 8,2正-3反 0. 01323,2正-3反 按照最大似然法则: 第1轮中最有可能的是硬币B 第2轮中最有可能的是硬币A 第3轮中最有可能的是硬币A 第4轮中最有可能的是硬币B 第5轮中最有可能的是硬币A 我们就把概率更大,即更可能是A的,即第2轮、第3轮、第5轮出现正的次数2、1、2相加,除以A被抛的总次数15(A抛了三轮,每轮5次),作为z的估计值,B的计算方法类似。 然后我们便可以按照最大似然概率法则来估计新的PA和PB。 6 就这样,不断迭代 不断接近真实值,这就是EM算法的奇妙之处。 5,此时无论怎样迭代,PA和PB的值都会保持0. 4和0. 5不变,于是乎,我们就找到了PA和PB的最大似然估计。 总结一下计算步骤:• 然后循环重复2、3步直到收敛。 详细的推导过程请参考文末的参考文献。 采用 EM 算法求解的模型有哪些? 用EM算法求解的模型一般有GMM或者协同过滤,k-means其实也属于EM。 EM算法一定会收敛,但是可能收敛到局部最优。 由于求和的项数将随着隐变量的数目指数上升,会给梯度计算带来麻烦。 代码实现 【】 4. 参考文献 作者: GitHub: 欢迎大家加入讨论!共同完善此项目!群号:【541954936】.

次の

最大似然估计

极大似然函数

条件概率 事物A独立发生的概率为 ,事物B独立发生的概率为 ,那么有: 表示事物B发生之后事物A发生的概率; 表示事物A发生之后事物B发生的概率; 全概率 我们可以将公式写成全量的形式: 表示全量相互排斥且性质关联的事物,即: , 那么可以得到 ,这就是全概率公式。 全概率公式的意义在于:无法知道一个事物独立发生的概率,但是我们可以将其在各种条件下发生的概率进行累加获得。 全概率的例子 例1,已知某种疾病的发病率是0. 001,即1000人中会有1个人得病。 现有一种试剂可以检验患者是否得病,它的准确率是0. 一个人检测为阳性的概率是多少。 例2,袋子中50个球,20个黄球,30个白球。 2个人一次从袋中各获取一个球,且不放回,求第二个人取得黄球的概率。 从另外一个角度说,无论前面的人抽了多少次,后面的人抽签总体概率是不变的。 例3,5张卡片上分别标记了1,2,3,4,5,每次取2张,连续取2次,取出后不放回。 求第二次取出的卡片,比第一次取出的卡片大的概率。 例4,甲袋有5只白球、7个红球,乙袋有4只白球、2只红球。 任意取一个袋子,求从袋子取得白球的概率。 定义如下: 沿用前面医学的例子: 例1,已知某种疾病的发病率是0. 001,即1000人中会有1个人得病。 现有一种试剂可以检验患者是否得病,它的准确率是0. 一个人检测为阳性时候,他确切患病的几率是多少。 从结论看,这个试剂挺不可靠的。 将贝叶斯公式的底部展开为全概率公式: 使用全概率公式展开之后有个很直观的发现:当我们考察某一个事件的条件概率时——事件 发生之后 发生的概率,需要将整个样本空间中其他概率事件也加入到其中来。 这里的 表示样本特征数据, 表示模型参数。 如果 已知并且固定,那么表示这个是一个概率计算模型,表示:不同的样本 在固定的模型参数 的概率值。 如果 已经并且固定,表示这是一个似然计算模型(统计模型),表示不同的样本用于求解模型参数。 极大似然估计 按照前面似然函数 的介绍,似然函数可以看做 是已知的, 是未知的,极大似然估计就是在已知 的情况下求取。 在现实的生产生活中也常常会遇到这样的问题。 我们以及有了 样本以及对应的 标签(结论),如何根据这些样本来计算(推算)条件 是一件很困难的事情。 而极大似然估计就是一个根据样本值 和结论数据 计算条件参数 的过程。 总的来说,极大似然估计是一种 参数估计算法。 使用极大似然估计有一个很重要的先决条件——每 一组样本都是独立的,并且有充分的训练样本。 先看看样本独立的判断公式: ,即2个事物同时发生的概率等于事物独立发生概率的乘积。 极大似然评估的公式及像这个公式。 设有一组样本 ,所有样本的联合概率密度 称为相对于样本 的似然函数。 那么由独立判定公式推断出所有样本的概率为:。 设 是使得 取得最大值的 值,那么 是 的极大似然估计量。 可以使用下面的公式表示 与 的关系: , 实际计算时,计算连乘比较麻烦,我们可以引入对数将其转换为一个求和的过程: ,因为。 也称为对数似然函数。 如果 连续可微,那么可以使用导数为0求函数的凸点。 将条件因子扩展为M个,即 ,则似然函数(对数似然函数变成): 此时每一个 的求导变成一个求偏导数的过程: ,每一个 都要对 求导。 最大似然评估的案例 最大似然评估计算 最大似然评估(也称为极大似然评估)的用处是什么?首先可以将每个字眼拆解开来看。 最大就是要找最大值 ,似然说明并不精确似乎就是这个值 ,评估指的是这是一个过程。 现实生活中的例子:2对夫妇 和 和一个小孩。 从外观上看,小孩 长相比较接近夫妇 ,有点像 ,不像 ,让你猜测 是谁的小孩。 思维正常一点的人肯定会说 是 的小孩,这本身就是一个自然而然的判断过程,用数学解释: 使用似然评估,就可以断定小孩更像谁:。 因为似然评估来自于概率独立判决公式—— ,所以要求用于评估的样本数据相互独立。 先说一个很直观的案例解释这个问题: 例1,从盒子里连续取球,已知取得红球的概率 ,求当P取何值时最有可能连续三次拿到红球。 只管上来说,肯定是概率越高取得红球的几率越高,所以不做推断也知道 时拿到红球的几率更高。 下面通过数学过程来说明这个问题。 设条件 ,表示取得红球, 表示没取得红球,所以用最大似然评估来计算参数得: ,只管的看就知道取值0. 5似然评估最大。

次の

极大似然估计与方差

极大似然函数

条件概率 事物A独立发生的概率为 ,事物B独立发生的概率为 ,那么有: 表示事物B发生之后事物A发生的概率; 表示事物A发生之后事物B发生的概率; 全概率 我们可以将公式写成全量的形式: 表示全量相互排斥且性质关联的事物,即: , 那么可以得到 ,这就是全概率公式。 全概率公式的意义在于:无法知道一个事物独立发生的概率,但是我们可以将其在各种条件下发生的概率进行累加获得。 全概率的例子 例1,已知某种疾病的发病率是0. 001,即1000人中会有1个人得病。 现有一种试剂可以检验患者是否得病,它的准确率是0. 一个人检测为阳性的概率是多少。 例2,袋子中50个球,20个黄球,30个白球。 2个人一次从袋中各获取一个球,且不放回,求第二个人取得黄球的概率。 从另外一个角度说,无论前面的人抽了多少次,后面的人抽签总体概率是不变的。 例3,5张卡片上分别标记了1,2,3,4,5,每次取2张,连续取2次,取出后不放回。 求第二次取出的卡片,比第一次取出的卡片大的概率。 例4,甲袋有5只白球、7个红球,乙袋有4只白球、2只红球。 任意取一个袋子,求从袋子取得白球的概率。 定义如下: 沿用前面医学的例子: 例1,已知某种疾病的发病率是0. 001,即1000人中会有1个人得病。 现有一种试剂可以检验患者是否得病,它的准确率是0. 一个人检测为阳性时候,他确切患病的几率是多少。 从结论看,这个试剂挺不可靠的。 将贝叶斯公式的底部展开为全概率公式: 使用全概率公式展开之后有个很直观的发现:当我们考察某一个事件的条件概率时——事件 发生之后 发生的概率,需要将整个样本空间中其他概率事件也加入到其中来。 这里的 表示样本特征数据, 表示模型参数。 如果 已知并且固定,那么表示这个是一个概率计算模型,表示:不同的样本 在固定的模型参数 的概率值。 如果 已经并且固定,表示这是一个似然计算模型(统计模型),表示不同的样本用于求解模型参数。 极大似然估计 按照前面似然函数 的介绍,似然函数可以看做 是已知的, 是未知的,极大似然估计就是在已知 的情况下求取。 在现实的生产生活中也常常会遇到这样的问题。 我们以及有了 样本以及对应的 标签(结论),如何根据这些样本来计算(推算)条件 是一件很困难的事情。 而极大似然估计就是一个根据样本值 和结论数据 计算条件参数 的过程。 总的来说,极大似然估计是一种 参数估计算法。 使用极大似然估计有一个很重要的先决条件——每 一组样本都是独立的,并且有充分的训练样本。 先看看样本独立的判断公式: ,即2个事物同时发生的概率等于事物独立发生概率的乘积。 极大似然评估的公式及像这个公式。 设有一组样本 ,所有样本的联合概率密度 称为相对于样本 的似然函数。 那么由独立判定公式推断出所有样本的概率为:。 设 是使得 取得最大值的 值,那么 是 的极大似然估计量。 可以使用下面的公式表示 与 的关系: , 实际计算时,计算连乘比较麻烦,我们可以引入对数将其转换为一个求和的过程: ,因为。 也称为对数似然函数。 如果 连续可微,那么可以使用导数为0求函数的凸点。 将条件因子扩展为M个,即 ,则似然函数(对数似然函数变成): 此时每一个 的求导变成一个求偏导数的过程: ,每一个 都要对 求导。 最大似然评估的案例 最大似然评估计算 最大似然评估(也称为极大似然评估)的用处是什么?首先可以将每个字眼拆解开来看。 最大就是要找最大值 ,似然说明并不精确似乎就是这个值 ,评估指的是这是一个过程。 现实生活中的例子:2对夫妇 和 和一个小孩。 从外观上看,小孩 长相比较接近夫妇 ,有点像 ,不像 ,让你猜测 是谁的小孩。 思维正常一点的人肯定会说 是 的小孩,这本身就是一个自然而然的判断过程,用数学解释: 使用似然评估,就可以断定小孩更像谁:。 因为似然评估来自于概率独立判决公式—— ,所以要求用于评估的样本数据相互独立。 先说一个很直观的案例解释这个问题: 例1,从盒子里连续取球,已知取得红球的概率 ,求当P取何值时最有可能连续三次拿到红球。 只管上来说,肯定是概率越高取得红球的几率越高,所以不做推断也知道 时拿到红球的几率更高。 下面通过数学过程来说明这个问题。 设条件 ,表示取得红球, 表示没取得红球,所以用最大似然评估来计算参数得: ,只管的看就知道取值0. 5似然评估最大。

次の