——开一个新坑，记录一些笔者硕士期间课题研究的小记和个人理解，有问题欢迎留言讨论，文章仅代表个人观点看法，所造成的损失和后果自行负责，转载请标明原作者。

在如今的大数据时代，大模型与各行各业都形成了重要的联系，大家在享受大模型的便利的同时，数据安全已经悄然成为一大重要安全问题。对于机器学习行业，数据安全是关乎生死命脉的重中之重。作为初入茅庐的数据安全研究者，我想通过这种随笔记录的方式分享数据安全的学习过程，同时也希望将专业的论文术语转成通俗的语言分享给同为初入数据安全的同志们，更好的理解和学习。

初入茅庐-机器学习到底是什么

在学习数据安全前，我们先来了解下数据服务的对象-机器学习到底是什么。顾名思义，机器学习就是让机器像人类一样学习一些技能，既然是来源于人，我们首先看一下人类的学习技能是如何形成的。举个例子，如何分辨一个图像是二次元图像。

对你来说，上面一张图很难得到一种归类的规律，那么我们可以多给一些图作为参考，如下所示：

那么现在我们有了参照的对比组和同类组，上面一排是二次元图像，下面一排是真实的任务照片。我们就能学习到二次元图像的一些特征，比如眼部细节和五官细节多区别于正常人类的比例，通过这些相同类型的图像和不同类型的图像强化印象，现在我们能分辨这个图像是二次元图像了，从理性的角度看，我们发现到这些二次元图像的共同点，并且记下来作为评判标准，这就是一个学习过程。

那我们现在可以发现这是一个二次元图像，那我现在想让机器能够分辨二次元图像，方便我能找好看的图来装饰我的博客网站，这个机器该怎么学习到这个概念呢？

同样类似人的学习过程，机器也能通过这样的流程学习到这个概念，通过给机器输入图像和对应的标签，机器通过图像中的一些特征统计结合标签并通过设定好的数学公式评判未知图像和二次元图像的之间的相似度，高于一定值的结果就是二次元图像。这就是机器学习的过程，但区别于人类，人可以通过感性认知判断，但机器没有人类的感性认知，必须依赖严格的数学特征计算来确定，所以机器学习并不能达到百分百人类学习的效果，只能通过提供海量的数据源（量变引起质变，力大砖飞）和设计不同的公式判别标准（更加精准的识别特征）来提高精准度。

进阶学习-怎么提升机器学习效果

上一段我们说了机器学习是啥，也提到了机器学习的两个重要核心-数据源和判别公式。对于机器学习的效果好坏，主要就靠这两点来决定。

还是举个例子，一个刷题造就的学霸和一个天赋怪都可以是数学全班前列，刷题同学甲见过的题够多，学到的解题方法够多，他的解题能力就够强；天赋怪同学乙虽然见过的题不多，解题方法也积累的不多，但他能结合公式推理出新的公式来解题，也就是融会贯通。这两种都是机器学习的进步方向，但是就和我们人类朴素认知一样，天赋怪同学乙明显更优于刷题同学甲，放到机器学习就是判别公式的效果好能顶的上数据源不够多的问题，毕竟我们都希望投入越少收获越多。

但是从公式上来说，数学特征优化出更好的结果很难实现，毕竟数学的事儿还是仰赖数学家们的研究，那我们在没有数学革新的情况下，最好的办法还是在数据源上做功夫，提供海量的数据源在目前公式的基础上微调参数，得到更加精准的结果。

那么回到这个问题来，我们知道现在能走的路子就是力大砖飞多学习，但是学习消耗的数据资源很大，消耗时间也很长，刷题同学甲就是往死里刷题也得一个章节一个章节的刷，一个章节一个章节的强化学习。时间成本太大，收益也不是很大。这就是传统的集中式机器学习，和人一样是有极限的。

“所以我不做人了！（误入）”

既然我们都用上机器了，作为工具那必然得有过人之处啊，不同于人类只有一个脑子，只能做集中式学习，机器完全可以多线程同时进行，人不能同一时间被多个老师教学学习语数英物化生，但机器可以分身同一时间接受学习。这就是分布式学习，这样我们通过拆分任务，多端同时进行最后进行汇总，就能大大节省时间资源得到我们想要的结果。