error
confidence
sample complexity
PAC learningの定義では無数の
ここでは簡便のため、sample complexity
learning algorithm
domain set
general loss function
A hypothesis class
$$ \left(\exists m_H (0,1)^2\rightarrow \mathbb{N}\right) \left(\exists \text{ learning algorithm }A\right)\text{ s.t. }\ \left[ (\forall\epsilon,\delta) (\forall\mathcal{D}) (\forall m \ge m_H(\epsilon, \delta)) \left(\mathbb{P}{S\sim \mathcal{D}^m}[L\mathcal{D}(A(S))\le \min_{h'\in\mathcal{H}} L_\mathcal{D}(h')+\epsilon]\ge 1-\delta\right) \right] $$
where the training set
A training set
training set
Proof
Sが$\epsilon/2$ representativeであるから、
また、定義より
また、
まとめると、すべての
したがって、Sが
したがって、Sが
A hypothesis class
where S is a sample of
hypothesis class
Proof
uniform convergenceの定義により
補題4.2より
したがって、
したがって、
タスクはbinary classification
$$(m \le \frac{\mathcal{X}}{2}) (\exists \mathcal{D}) \text{ s.t. } \left[ \left(\exists f \text{ s.t. } L_\mathcal{D}(f)=0\right) \land \left(\mathbb{P}{S\sim \mathcal{D}^m}[L\mathcal{D}(A(S))\ge \frac{1}{8}]\ge \frac{1}{7}\right) \right] $$
である
Proof
この定理を証明するには次の式が成り立つことを示せればよい。
$$
\max_{i\in[T]} \mathbb{E}_{S\sim \mathcal{D}i^m} [L{\mathcal{D}_i}(A(S))]\ge\frac{1}{4}
$$
一つの確率分布$D_i$に対して、$k=(2m)^m$通りのtraining sample
$$ \mathbb{E}{S\sim{\mathcal{D}i^m}}[L{\mathcal{D}i}(A(S))] = \frac{1}{k} \sum{j=1}^k L{\mathcal{D}i}(A(S_j^i)) $$ 一般に$\max \ge \text{average} \ge \min$であるから、 $$\begin{align} \max{i\in[T]}\frac{1}{k}\sum_{j=1}^k L_{\mathcal{D}i}(A(S_j^i)) &\ge \frac{1}{T} \sum{i=1}^T\frac{1}{k}\sum_{j=1}^k L_{\mathcal{D}i}(A(S_j^i))\ &= \frac{1}{k}\sum{j=1}^k \frac{1}{T}\sum_{i=1}^T L_{\mathcal{D}i}(A(S_j^i))\ &\ge\min{j\in[k]}\frac{1}{T}\sum_{i=1}^T L_{\mathcal{D}_i}(A(S_j^i)) \end{align} $$
ここで、$S_j = (x_1,\ldots,x_m)$とおく。
また、$u_j^1,\ldots, u_j^o\in C$を$(\forall q\in[o])(u_j^q\in S_j)$とおく。(ここで、$v$たちはuniqueでない、$u$たちはuniqueではないことに注意。したがって、$p+o=2m$であることが保証される) $$ p+o = 2m\ p = 2m-o\ o\le m\ -o \ge -m\ 2m-o\ge 2m-m = m\ \therefore p \ge m $$ したがって、$p\ge m$である。
$$\begin{align} L_{\mathcal{D}i}(h) &= \frac{1}{2m}\sum{x\in C}1_{[h(x)\ne f_i(x)]}\ &= \frac{1}{2m} \sum_{q=1}^o1_{[h(u_j^q)\ne f_i(u_j^q)]} + \sum_{r=1}^p1_{[h(v_j^r)\ne f_i(v_j^r)]}\
&\ge \frac{1}{2m}\sum_{r=1}^p1_{[h(v_j^r)\ne f_i(v_j^r)]}\ &\ge \frac{1}{2p}\sum_{r=1}^p1_{[h(v_j^r)\ne f_i(v_j^r)]}\ \end{align} $$
したがって、 $$ \begin{align} \frac{1}{T}\sum_{i=1}^T L_{\mathcal{D}i}(A(S_j^i)) &\ge \frac{1}{T}\sum{i=1}^T\frac{1}{2p}\sum_{r=1}^p 1_{[A(S_j^i)(v_j^r)\ne f_i(v_j^r)]}\ &= \frac{1}{2p}\sum_{r=1}^p\frac{1}{T}\sum_{i=1}^T 1_{[A(S_j^i)(v_j^r)\ne f_i(v_j^r)]}\ &= \frac{1}{2}\frac{1}{p}\sum_{r=1}^p \frac{1}{T}\sum_{i=1}^T 1_{[A(S_j^i)(v_j^r)\ne f_i (v_j^r)]}\ &\ge \frac{1}{2} \min_{r\in[p]} \frac{1}{T}\sum_{i=1}^T 1_{[A(S_j^i)(v_j^r)\ne f_i(v_j^r)]}\
\end{align} $$
したがって、 $$ \frac{1}{T}\sum_{i=1}^T 1_{[A(S_j^i)(v_j^r)\ne f_i(v_j^r)]} = \frac{1}{2} $$
したがって、 $$\begin{align} \frac{1}{T}\sum_{i=1}^T L_{\mathcal{D}i}(A(S_j^i)) &\ge \frac{1}{2} \min{r\in[p]} \frac{1}{2}\ & = \frac{1}{4} \end{align} $$ したがって、 $$\begin{align} \max_{i\in[T]}\frac{1}{k}\sum_{j=1}^k L_{\mathcal{D}i}(A(S_j^i)) &\ge \min{j\in[k]}\frac{1}{T}\sum_{i=1}^T L_{\mathcal{D}i}(A(S_j^i))\ &\ge\min{j\in[k]}\frac{1}{4}\ &= \frac{1}{4} \end{align} $$ したがって、以下の式を示せた。 $$ \max_{i\in[T]} \mathbb{E}_{S\sim \mathcal{D}i^m}[L{\mathcal{D}_i} (A(S))] \ge \frac{1}{4} $$