博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘里的“降维”----从五阶魔方的玩法思考
阅读量:6713 次
发布时间:2019-06-25

本文共 1167 字,大约阅读时间需要 3 分钟。

    上一周去听了宫老师的K-NN,及神经网络的算法课程。这一周本来准备深入研究一下,回来后,看到同事桌上的魔方,就开始还原了起来。实际上,从魔方的角度来思考我们数据挖掘里的一些算法,发现,另有一番收获。

    先说魔方,实际上,从三阶往上来说,无论是四阶,五阶还是更高。其中的口诀很多,但是最根本的思想就是“降维”。就是把更高阶的魔方降到我们熟悉的低阶魔方,然后按照我们曾经的熟悉的方法来还原的。而对于数据挖掘,好像也是这样。魔方从高阶降维到三阶需要很长时间,而我们所需要挖掘的数据开始的数据准备及数据理解也是需要很大量的工作的。而所要建立的模型大部分就类似于我们经常玩的“三阶魔方”。把我们加工好的数据放入“三阶模型”里,就可以套用相应的算法公式来进行相应的分类。实际上,这两者有许多共同之处。

    K-NN,K-MEANS这两个算法都是以K为中心值然后通过计算周围数值的平均值,来均方差来估算最大的可能。这一方面有点类似于我们如何在魔方中以一面的中心点开始如何先将一面还原,继而再去还原其他的面。里边的数学公式的推导是很繁杂。但是我们只要掌握住算法是做什么的,知道个大概就能够从原始的数据中找到那个相应的K值。

    我们在用数学统计里很多的模型是要用到三维的向量空间坐标系,而我们实际的数据里有许多的维度。如何能够在我们图中来分出相应的参数,找到相应的坐标点,这是很重要的。比如说,在我们统计数据里,有省份,性别,投资类别这样的字符型数据,在三维的坐标中,也许我们用数值来表示更容易区分,而这里如何用数值来表达就很重要!性别好说,男可以为1,女可以为0,而省份,投资类别这因的数据,我们是人为指定1表示上海,2表示北京........这些的指定就不好说了。首先,人为指定有些麻烦,更况且这些指标是否影响到挖掘结果。这个我们无从得知!

     再反过来看魔方的玩法,在高阶中(如五阶),在中心6面对齐的前提下,通过先对齐棱的方法,使其“降维”为三阶魔方。我们是否也可以用这样的思想,先将这些数值型字符归成大类,然后再在我们三维坐标上标出其实际坐标点,再去分析。

     数据挖掘里,一直强调的是挖掘思维,而不是挖掘算法。但是挖掘算法又是我们无法避开的环节,有时也在想,对于一个不懂统计的人来说,如何来理解这些算法,也许并不那么重要,重要的是我们要如何去使用。在网站挖掘项目中,我们在统计用户的上网行为的时候,总是会有许多的参数来供我们分析,这些许多的参数就像那些高阶魔方一样,我们如何将之“降维”为我们所熟悉的三阶魔方,然后对我们的用户进行相应分类。这样,也许是网站运营最为关系的。

    从营销的角度来思考我们挖掘算法,大道至简,用简单的方法去挖掘出我们要有的目标客户,进而有相关的精准营销。也许这才是我们数据挖掘的根本意义。这样,也便于向决策层讲明我们的技术实现过程。

转载地址:http://djhlo.baihongyu.com/

你可能感兴趣的文章
重磅,企业实施大数据的路径
查看>>
linux之cp/scp命令+scp命令详解
查看>>
Spark 源码分析 -- BlockStore
查看>>
《C语言编程初学者指南》一1.7 创建并运行第一个C程序
查看>>
学习和使用 PHP 应该注意的10件事
查看>>
《Ember.js实战》——2.5 Ember.js对象模型
查看>>
《响应式Web图形设计》一第13章 响应Web设计中的图像
查看>>
shiro session 监听
查看>>
定时任务框架Quartz的新玩法
查看>>
段前缀的使用(0504)
查看>>
.NET Framework 源码
查看>>
开源大数据周刊-第6期
查看>>
centos上一键安装jdk、tomcat脚本
查看>>
排序算法 时间、空间复杂度
查看>>
心痛的感觉
查看>>
class - function ES6类的方法的两种定义方式及调用方式
查看>>
flex容器主轴上的部分元素单独设置位置
查看>>
window10安装Ubuntu虚拟机踩坑系列
查看>>
JavaScript倒计时
查看>>
ArrayList源码分析
查看>>