机器学习与科学研究<%=id%>

    近来在机器学习方法上取得的成就及其在诸如行星科学、信息情报学等诸多领域的广泛应用，使科学家们又有了一个新的有力工具。
    机器学习就是对计算机算法的研究，这种算法能够使机器在以往经验的基础上根据实际的任务来改善自己的性能。它与模式识别和统计学推论密切相关。机器学习方法，如聚类分析、神经网络分类、非线性回归等在工程、商业和科学领域应用广泛。
    在科学研究中，每个科学领域都有自己的研究形式，但都有一个一般过程：观察、提出假设、实验检验、反复建立易理解易测的模型或理论。而每一个阶段的科学抽象，都在机器学习、模式识别和统计学推论中有相关的发展，进而产生未知的但具有广阔的潜在应用前景的半自动支持工具。具体步骤如下：
    第一步：观察现象。观察数据常常是高维的，高维向量数据的可视化和挖掘是目前机器学习研究的焦点。如高维数据的降维处理，就是将测量空间中的高维数据变换为低维（如二维或三维）以利于计算机进行可视化显示。
    第二步：产生假设。许多数据聚类算法都可看作是数据向量对简单混合概率模型，如高斯分布的拟合。另外，观察数据也可向相关的有预测性的随机模型拟合，如遗传编码数据的回归模拟神经网络模型。因此，我们可以根据实际情况假设数据符合某种模型。有时，假设的自动生成是非常重要的。
    第三步：构造模型。根据数据构造一个好的学习模型是机器学习的中心目标，所以对这一关键阶段机器学习提供了强大的工具。如上面提到的聚类混合模型、回归模拟神经网络模型都有有效的参数估计算法。另外，象非监督数据聚类、监督学习算法也都有自己的统计学描述。
    第四步：检验理论预测值。
    第五步：修正理论，重复第二、三步。
    为达到改善科学进程的目的，机器学习方法也面临着多种困难。其一，大多数机器学习方法主要是处理矢量数据，这就限制了它在更为丰富的非矢量关系的数据（如图表、文本数据）中的应用。其二，在生物信息和网络中的数据处理方法还相当新而且不成熟。其三，大多数机器学习都是先假定一个固定的模型结构，而实际上我们常希望模型结构是可变的，在研究初期尤其如此。因此从系统的观点来看，还需要做很多工作。现在，机器学习研究的一个令人振奋的方向是许多经典线性方法（如PCA法、K近邻分类法、Fisher分类法等）的非线性Mercer核函数形式以及特殊领域的核函数。这些核函数可以对高维特征空间中的高精度模型进行学习，并且能够克服传统学习方法中的“维数灾难”问题。因此，机器学习方法的突破包括两个方面，一是设计新的算法，二是设计强大的特殊领域中的核函数。

设为首页 | 加入收藏 | 广告服务 | 友情链接 | 版权申明