Sunday, 21 September 2014

Machine Learning Octave 笔记.md

Machine Learning Octave 笔记

@(Machine Learning)[Machine Learning,Octave]

0.准备

添加路径,可以直接运行该目录的m文件函数。

addpath ("C:\\octave\\workspace\\ml-class\\mlclass-ex1")

添加路径有些问题,当两个路径中有相同的函数,将会出现错误,将会从最近的一个路径进行搜索!所以后面实验还是要直接进入到相应目录。

cd("C:\\octave\\workspace\\ml-class\\mlclass-ex2")

1.关于冒号的使用方法

data = load('ex1data2.txt');
X = data(:, 1:2);
y = data(:, 3);
m = length(y);

这三句代码是加载数据并且进行数据的赋值,这里需要注意的一点事:在这里怎么用?具体可以参考文档8 Expressions

在括号中前后两个位置分别代表column和row,也就是竖和横(列和行)
第一个位置:按来选取 column 记忆法,有个l上下贯穿,所以是列。
第二个位置:按来选取 row 记忆法:有个w,左右链接,所以是行

:解释1: 代表所有数据,根据所在括号的位置来选取
:解释2: 表示两个从一个数字到一个数字

所以X = data(:, 1:2);表示将data中的数据按照列选取,选出其中的1到2列赋值给X。

octave:6> test = [1,2,3,4;5,6,7,8;9,10,11,12]
test =
1    2    3    4
5    6    7    8
9   10   11   12
octave:7> a = test(:,1:2)
a =
1    2
5    6
9   10
octave:8> b = test(3,:) 按行取出第三行赋值给b
b =
9   10   11   12

length(y)函数比较奇怪,它表示获取矩阵最大的维度。譬如length(b)就是4,而length(a)就是3。

fprintf(' x = [%.0f %.0f], y = %.0f \n', [X(1:10,:) y(1:10,:)]');

这里面的冒号又是什么意思呢? 一个道理,按行选取1到10行!

2.Ex1问题详解

mu = zeros(1, size(X, 2));

size(X,2)表示返回X的第二个维度的大小,第二个维度也就是列,column。

mu = mean(X);
sigma = std(X);

需要注意的是矩阵的函数都是针对矩阵进行运算的。

meanstd默认是column求平均数,这样求得就是行向量;
如果是按行求需要加入DIM参数2,求得列向量。

octave:39> mean(test,2)
ans =  2.5000
       6.5000
       10.5000

If X is a matrix, compute the mean for each column and return them in a row vector.

X = [ones(m, 1) X];

在X基础上加入m行数字1. 可以发现当第二个参数为1时就是列向量,如果第一个参数为1,则为行向量。

htheta = X * theta;

矩阵乘法 X( m行3列),theta(3行1列) == (m行1列):求出 HΘ(x). 记住这里直接使用矩阵乘法模拟了多个变量的多项式组合.
HΘ(x)=y=θ1x1+θ2x2+θ3x3
变成矩阵就是
x(1)1 x(2)1 x(3)1 x(4)1 ...x(1)2x(2)2x(3)2x(4)2x(1)3x(2)3x(3)3x(4)3theta1 theta2 theta3

theta_tmp(row) = theta(row) - alpha / m * sum((htheta - y) .* X(:,row));

更新θ

theta_tmp(row) = theta(row) - alpha / m * sum((htheta - y) .* X(:,row));

计算对应的cost,迭代100次

predictions = X * theta;
sqrErrors = (predictions - y).^2;
J = 1 / (2*m) * sum(sqrErrors);

J = (X*theta - y)' * (X*theta - y) / (2*m);

对比一下两种求J的方法,后一种是使用矩阵格式

(x(1)1 x(2)1 x(3)1 x(4)1 ...x(1)2x(2)2x(3)2x(4)2x(1)3x(2)3x(3)3x(4)3theta1 theta2 theta3y(1) y(2) y(3) y(4) ...)(x(1)1 x(2)1 x(3)1 x(4)1 ...x(1)2x(2)2x(3)2x(4)2x(1)3x(2)3x(3)3x(4)3theta1 theta2 theta3y(1) y(2) y(3) y(4) ...)/(2m)

3. Ex2 问题详解

该实验主要是解决逻辑回归问题

首先我们要了解函数optimset 和fminunc这两个函数可以快速实现优化.

options = optimset('GradObj', 'on', 'MaxIter', 400);

Optimset 解析,相当于配置了优化算法
Function File: optimset (PAR, VAL, …)
– Function File: optimset (OLD, PAR, VAL, …)
– Function File: optimset (OLD, NEW)
Create options struct for optimization functions.

GradObj When set to “on”, the function to be minimized must return a second argument which is the gradient, or first derivative, of the function at the point X. If set to “off” [default], the gradient is computed via finite differences.
MaxIter Maximum number of algorithm iterations before optimization stops. Must be a positive integer.

[theta, cost] = ...
fminunc(@(t)(costFunction(t, X, y)), initial_theta, options);

对于@(t)的解释

见文档P178-11.10.2

11.10.2 Anonymous Functions
Anonymous functions are defined using the syntax

@(argument-list ) expression

Any variables that are not found in the argument list are inherited from the enclosing scope.
Anonymous functions are useful for creating simple unnamed functions from expressions or for wrapping calls to other functions to adapt them for use by functions like quad. For example,

f = @(x) x.^2;
quad (f, 0, 10) 从0到10对f进行积分,相当于把后面的变量传递给f
⇒ 333.33

creates a simple unnamed function from the expression x.^2 and passes it to quad,

quad (@(x) sin (x), 0, pi)
⇒ 2

wraps another function, and

a = 1;
b = 2;
quad (@(x) betainc (x, a, b), 0, 0.4)
⇒ 0.13867

adapts a function with several parameters to the form required by quad. In this example, the values of a and b that are passed to betainc are inherited from the current environment.

再看课程说明文档介绍

To specify the actual function we are minimizing, we use a “short-hand”for specifying functions with the @(t) ( costFunction(t, X, y) ) . This creates a function, with argument t, which calls your costFunction. This allows us to wrap the costFunction for use with fminunc.

首先我们注意costFunction需要输入theta,X,y. 所以t这里就表示theta把后面的theta传入到函数中.

4. Ex3 要点详解

由于是多分类,需要进行逻辑回归的向量化!增加效率,换句话说,就是批量进行逻辑回归。

首先区分一下矩阵乘法和点乘法:
x * y Matrix multiplication. The number of columns of x must agree with the number of rows of y, or they must be broadcastable to the same shape. 矩阵相乘,要求维度:前面的列=后面的行
x .* y Element-by-element multiplication. If both operands are matrices, the number of rows and columns must both agree, or they must be broadcastable to the same shape. 对应的元素相乘,要求矩阵维度相同。

可见如果乘以一个数,那么这两种乘法是一样的。

其次介绍一下 == 在octive中的含义比较有趣,通过实验发现,如果是使用矩阵和实数进行比较,则返回一个矩阵,其中相同的位置返回1,其他不同的返回0。 如果是矩阵和矩阵进行比较,需要相同的维度,同样也是返回一个1和0的矩阵。

octave:16> a =1:10
a =
1    2    3    4    5    6    7    8    9   10
octave:17> b = 3
b =  3
octave:18> a==b
ans =
0   0   1   0   0   0   0   0   0   0