Methods of Bounded Difference (1)
Conditional Expectation, Martingales, and Lipschitz condition
Mathematics
读书笔记
ConcentrationInequality
Overview
当随机变量X可表示成多个独立的有界随机变量之和时,可以用Chernoff-Hoeffding Bound为其给出很紧的concentration estimate,但是在很多实际应用中,
首先所研究的量未必能表示成多个随机变量之和的形式,其次随机变量间的独立性条件也未必满足:在更一般的情况中,我们感兴趣的变量Z是关于多个随机变量X1,…,Xn的某个函数,
即Z=f(X1,…,Xn),注意这里Xi之间未必相互独立。当f与Xi满足某些条件时,可以利用一种称为bounded difference的技术给出concentration estimate,此时甚至不需要知道f的具体形式。
这个技巧的基本原理是用概率论中的一个叫做鞅(martingale)的概念来代替原本的独立性假设,因此先简要介绍鞅的一些性质,并从中出发得到一些初步的结果。
Conditional Expectation
条件期望就是对多个随机变量的函数求部分期望,即将某一部分随机变量视作已知值(即把它们“固定住”,又称conditioned on),然后对剩下的随机变量求期望。例如对函数f(X,Y),其中参数X,Y是随机变量, 要求X关于Y的条件期望(expectation of X conditioned on Y)就是EX[f(X,Y)|Y],这个期望的结果实际上还是一个随机变量——一个关于随机变量Y的函数。下面举几个条件期望的常用性质:
EX[EY[f(X)g(X,Y)|X]]=EX[f(X)EY[g(X,Y)|X]],这是因为在内层的条件期望中X是被“固定住”的,可被视为常量,因此f(X)能提到外层期望中去。
EX[X]=∑ipiEX[X|Y=yi]=EY[EX[X|Y]]
EY[EX[X|Y]|Z]=∑ipiEX[X|Y=yi,Z]=EX[X|Z]
Martingales
所谓鞅(martingale)指的是满足一种“局部相关性”的随机变量序列,作为例子,考虑一个抛掷硬币的游戏:连续抛掷一枚均匀的硬币,若出现正面,则得分+1,反之得分-1,用Sn表示连续抛掷n次后的总得分,易见随机变量S0,S1,…并不满足独立性假设,Sn是有之前n次抛掷后的得分S0,…,Sn−1及第n次抛掷的得分Xn决定,但仔细研究会发现,它们之间的相关性仅体现在某种局部的意义上:
E[Sn|S0,…,Sn−1]=E[Sn|Sn−1]=E[Sn−1+Xn|Sn−1]=Sn−1(由于 E[Xn]=0)
事实上,序列
S0,S1,…就是一种鞅序列。如果把它看成一种随机游走,则
从期望的意义上,该序列不会离它的出发点太远(准确地说是留在原地),这也暗示了鞅有concentration的性质。
下面给出几个后面要用到的定义
若随机变量序列X0,X1,…满足下述条件:
EXi[Xi|X0,X1,…,Xi−1]=Xi−1,i≥1
则称该序列为一个鞅(martingale),上述条件可以简记为EXi[Xi|Xi−1]
若随机变量序列X0,X1,…是一个鞅,定义序列
Yi=Xi−Xi−1,(i≥1)
则称序列Yi为martingale difference sequence(MDS),易见E[Yi|Xi−1]=0
若随机变量序列X0,X1,…是一个鞅,且每个Xi满足条件ai≤Xi−Xi−1≤bi,则称该序列满足bounded difference条件
前面说过鞅“不会离它的出发点太远“,这个东西形式化一下就是下面的concentration inequality:
(Azuma-Hoeffding Inequality),设X0,X1,…是一个鞅,且其满足bounded difference条件,则
Pr[Xn>X0+t],Pr[Xn<X0−t]≤exp(−2t2∑i∈[n](bi−ai)2)
Generalized Martingales
本节把鞅的定义推广到一组随机变量依赖于另一组随机变量的情况,并给出推广后的Azuma-Hoeffding inequality。
若随机变量序列Y:=Y0,Y1,…是关于另一组随机变量序列X:=X0,X1,…的函数(精确地说就是存在函数gi使Yi=gi(Xi)),且
E[Yi|Xi−1]=Yi−1,i≥1
则称序列
Y是关于序列
X的鞅序列(martingale with respect to
X)
一个重要的例子就是所谓的Doob sequence,它是针对任意函数及任意一组随机变量序列所构造出的鞅,由于这个构造过程的普适性,在实际应用中常通过构造Doob序列来得到鞅。
(Doob sequence)任意一个n元函数f,视其n个参数为一个有限长的随机变量序列X1,…,Xn,则定义
Yi:=E[f|Xi],0≤i≤n
特别的,Y0=E[f],Yn=f(X1,…,Xn)。称序列Y为函数f关于变量X1,…,Xn的Doob序列。
可以证明Doob序列是一个鞅,即E[Yi|Xi−1]=Yi−1
上一节的Azuma-Hoeffding Inequality也可以推广到本节的generalized martingale上:
(Azuma-Hoeffding Inequality - general version),设Y0,Y1,…是一个关于序列X0,X1,…的鞅,且Y满足bounded difference条件,则
Pr[Yn>Y0+t],Pr[Yn<Y0−t]≤exp(−2t2∑i∈[n](bi−ai)2)
鞅的引入是为了放松原本的随机变量X1,X2,…间的独立性假设,在这个基础上研究Z=f(X1,…,Xn)的concentration性质。由于f的定义可能非常复杂,为了处理一般的情况,我们再为f引入一个所谓的Lipschitz condition;当f满足该条件时,不管其具体形式如何,都有可能为之得到较好的concentration bound。
Lipschitz condition
直观上,Lipschitz condition表明一个函数的图像是比较平缓的,不会变化非常剧烈。由于这里f是一个关于一群随机变量的函数,因此本文中的Lipschitz condition的定义与传统定义略有不同,但含义基本一致。下面分别介绍常用的几种定义,以及在满足该定义的情况下,我们能得到何种concentration bound。
设X1,…,Xn是任意一组随机变量,f是关于它们的函数。
Averaged bounded difference condition
若∀i∈[n],存在ci≥0使得
|E[f|Xi]−E[f|Xi−1]|≤ci
则称f满足averaged bounded difference condition.易看出这实际上就是上一节所说的Doob sequence的一种特殊情况:取Yi:=E[f|Xi]即可。而且上一节所给出的generalized Azuma-Hoeffding不等式也可以直接用在这里。设c:=∑ic2i,则有
Pr[f>Ef+t],Pr[f<Ef−t]≤exp(−2t2c)
Averaged Lipschitz condition(ALC)
若对随机变量Xi任意的两个可能取值ai,a′i,存在ci≥0使
|E[f|Xi−1,Xi=ai]−E[f|Xi−1,Xi=a′i]|≤ci
则称f满足averaged Lipschitz condition。直观上说就是,固定前i−1个变量,然后让第i个变量取任意的两个值,接着对剩下的变量求条件期望,这样得到的两个随机变量(回忆之前介绍条件期望时所说的,对部分变量求条件期望后得到的结果仍是随机变量)是uniformly bounded by ci.当f满足该条件时,可以得到同之前形式一样的bound:
Pr[f>Ef+t],Pr[f<Ef−t]≤exp(−2t2c)
Lipshitz property (or bounded difference condition)
这个条件一般来说是最容易验证的,因此实践中用的非常多。若对函数f(x1,…,xn),存在常数di,i∈[n]使
|f(a)−f(a′)|≤di
(其中a,a′仅在第i个坐标上的值不同),则称f具有Lipschitz property。此时,若X1,…,Xn相互独立,则又能得到一个非常面熟的bound:
Pr[f>Ef+t],Pr[f<Ef−t]≤exp(−2t2d)
只是这里由c换成了d=∑id2i. 然而这个bound在应用时有两个缺点:第一,它要求f的各个参数之间相互独立,这一般需要对变量进行一些替换才能达到(将在下章介绍);第二,在该bounded difference condition中的参数di很可能会远大于前两个bound中的参数ci,导致得到的bound非常松,因而意义不大(易看出ALC条件下的参数ci是恒小于或等于di的).与此相反的是,average bounded difference condition中的参数总是小于ALC条件中的对应ci,因此从该条件出发得到的bound是上述三个bound中最紧的。