说说机器学习

知识的本质

缓冲区溢出，以及令人蛋疼的strncpy

May 16

felix021 @ 2012-5-16 00:29 [IT » 其他] 评论(0) , 引用(0) , 阅读(6392) | Via 本站原创

大 | 中 | 小

为了论文搞了把机器学习的东西，虽然了解得非常肤浅，但是窥探了一下这个领域也还是很有收获。

对于遇到的问题，传统的思路是通过建模，然后使用对应的算法予以解决。但是对于很多问题，建模本身是不实际的，例如语音识别、计算机视觉等等。而机器学习算法的思路则不同，通过对现有的数据进行分析和统计，得到一组参数来逼近真实的模型，从而能够处理未知的数据。

我的论文里主要是使用SVM来解决简单的二分类问题。SVM，Support Vector Machine的简写，也就是“支持向量机”，很早以前有“听说过”，但是之前完全没有概念。这次在yihong妹妹的推荐下，看了faruto大牛写的《SVM入门精品系列讲解》，能大致在原理上明白svm分类的机制。之所以称faruto为大牛，主要是因为这个讲解系列非常地浅显易懂，没有卖弄玄虚，即使是我这样没学好数学的人，也能够非常容易地弄懂。

由我来归纳的话，svm的基本思路应该是，将每个样本x当作一个N维向量（也就是N维空间中的一个点），通过某种方式找到该空间中的一个超平面w * x + b = 0，将样本分成两类。例如二维空间中的点，可以用一条直线分成两类，而三维空间的点，可以用一个平面来分。由于并不是所有问题中，样本在N维空间中都可以被超平面分为两类，因此通过使用引入核函数将样本映射到更高维的空间、并引入松弛变量以忽略噪音数据等方式，达到对数据进行分类的目的。

可能看起来有点抽象？没关系，把那个系列（并不是很长）看完就懂了，其实不难理解。在此基础上，svm方法还有许多扩充，例如对不平衡样本集的处理、One-Class SVM、在线SVM训练等等。

想要使用svm算法的话，非常幸运，台湾大学林智仁(Lin Chih-Jen)副教授主持的 libsvm 项目提供了c/java/python/matlab 的接口，直接拿来就能用了，非常方便。

在学习svm的过程中，也顺便看了一些其他的机器学习算法，这里也大致列一下。

HMM，隐马尔可夫模型。李开复的主要学术成就（之一?），就是使用了HMM开发出世界上第一个大词汇量连续语音识别系统 Sphinx。根据Google研究员吴军的数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用，使用HMM来进行语音识别是李开复的师兄提出的。

HMM算法是基于贝叶斯公式的。贝叶斯公式在机器学习中是一个非常基础的理论。关于这个，推荐阅读《数学之美番外篇：平凡而又神奇的贝叶斯方法》

神经网络算法，通过模拟神经元的工作方式来对数据进行学习，使用多个神经元构成一个网络，并适当加入反馈机制。详情参考神经网络编程入门。

遗传算法，通过模拟染色体复制、基因变异等机制，使状态不断”进化“，从而尽量逼近最优值。详情参考遗传算法入门。

模拟退火，非常简洁、实用的一个算法，基于“爬山算法”（不断逼近离当前点最近的极值，贪心）改进而来，通过引入随机化以获得跳跃到其他极值区域的机会，从而尽可能获得更高的极值点。详情可参考《大白话解析模拟退火算法》。

此外还看到了决策树、K-mean聚类等算法，不过没有细看，只是大致扫了一眼，就不扯了。

以上给出的链接大都是讲解得非常浅显易懂的文章，非常推荐阅读。

欢迎扫码关注：

转载请注明出自，如是转载文则注明原出处，谢谢:)
RSS订阅地址: https://www.felix021.com/blog/feed.php 。

Felix021

说说机器学习

联系我

最新评论

最新日志

分类

其他

统计

链接

发表评论
表情打开HTML 打开UBB 打开表情隐藏记住我	昵称密码 *非必须网址电邮 [注册]