1.深度学习机器学习基本概念(上)

1. Machine Learning

什么叫机器学习，实际就是让机器能够拥有查找函数的方式。机器查找问题的方式就是找函数，因为这个问题过于复杂，所以人类无法简单的寻找到，需要通过计算（人工智能？no，人工计算）

this is refer to looking for function.

对于不同任务的机器学习任务是不同的

speech recognition 输入的是一段音频，输出的是语句，“how are you”
image Recognition 输入的是一张彩色图像，输出的是对这张图的分类 “猫”
playing go 输入的是黑子跟白子的位置，输出的是对于下一步的最优解

1.1 Different types of Functions

Rgression: the function outputs a scalar

所谓回归，就是机器的函数输出是个标量

输入：今天2.5PM的值，温度，O3含量，通过这些数据代入到f里，那么就可以预测出名堂PM的值

Classification: given options (classes), the function ouputs correct one.

classfication的目的是进行选择，从一些选项里选择出最可能的选项。

对于垃圾检测机制，选项只有yes/no，是或不是垃圾邮件，这就是最基础的分类应用问题。

对于alpha go其实同样是分类问题，只是alph go的选择比较多，（选择是基于黑棋白棋空余的位置, 19 * 19 -下过的位置）

1.2 structed learning

除了经典的分类和回归问题，还有一个经典的领域问题，就是产生式问题，让机器产生一个有结构的文件，举例来说让机器写一篇文章，让机器画一幅图。也可以说是让机器学会创造。那么机器该如何找一个函式呢?

2. Case Study

通过YouTube channel 来举例

youtuber在意的就是YouTube流量，因此我们想尝试找到一个函式能够得到youtube预测的流量

因此输入是在2021年2月31日之前每天观看的流量数据，输出是预测第二天或者几天后的观看流量数据

所以这里的任务是做预测。

2.1 找函数的步骤

我们要写出一个带有未知函数的参式

$$
y = b + w x_{1}\
$$

w and b 是不确定的参数，是我们猜测的函数

2.2 关于domain knowledg

机器学习其实是需要一些前置知识的，因为你对一个预测问题是需要对这个行业有一些了解，这样可以提出剔除掉一些无关变量，更多的保留和这个问题相关的变量，比如关于房价，我们很直觉的就会认为房子地段，面积是很相关的变量。

2.3 关于Loss

Loss就是损失函数，是关于w，b这两个参数的函数，它衡量了w，b的好坏程度。

2.4 $\hat{y}$和label

我们可以先随机设定w和b，假设w是观看次数为4.8k，也就是1月1日的观看数据，b是1，那么代入可得5.3k，实际的参数可用$\hat{y}$表示，因此y和$\hat{y}$的差距就是error，也就是真实之和预测值的差距。而label就是代表真实值，也就是常规意义说的标签，打标签就是人为的去设定真实值。比如人为的寻找分割图像，人为的分类图像种类。我们只有设定了答案，才能让机器学习。