数据挖掘是科学还是宗教?

这世间万事万物都是有联系的。一个因素诱使另一个因素的发生。美洲的蝴蝶或许会引起飓风,USA的经济让全世界人民买单…或许这就是规律。近来上了高级数据挖掘课。
想想从众多属性因素中找到关联的规律,确实不是一件简单的事情。

课上老师说:超市中发现某天尿布和啤酒大多是同时卖出的。然后老师做的解释说,估计全家人以后几天想在家庆祝不想外出。然后超市就可以根据这个规律来制定产品的价格并
进行促销活动。其实我发现这样规律实在太多了,并且也总是有些离谱。

假设这样一个例子:对高级职称的评审预测。

id    name    age    work-year   title

1      明明        20         3             经理

2      红红        21         1             部门经理

3      白白        20         1             项目经理

4      小小        40         2             高级工程师

等等这样一个例子中,如果我们抽出 age work-year title进行预测分析或许可以得到一个age work-year
与title的相互关联规则,然后放入叫 XX的人,age 30  work-year 2 预测title是什么。这样做大家都认为…是可以的,因为title
是类别嘛!其他都是属性,这么做其实是经典的数据挖掘…可是如果我们把姓名和我们人为加入的id放入其中呢?那估计得到的结果让人啼笑皆非。比如有这样的结果被挖
掘出来:有叠字的可以做经理,或者id为10的倍数的人可以做高级工程师…我们大家心理非常清楚这种联系是不可取的。【虽然有“姓名预测学”这种学科,并且几乎所有
的中国人都认为名字很重要(因为我不曾听说过家长对儿女的名字不关心的)】但是如果挖掘出有复姓的小朋友可以做经理…有叠字的小朋友可以做高工…那我们很大程度
就知道我们未来了…不管是谁,估计不会怎么信…这个预测尚且说的过去,那id号是10的倍数的预测…就是无稽之谈…当然我们虽然也在现实生活中经常注意并
且追逐“8”,“6”之类的数字。但是这个id号毕竟是我们自己加的…我改动一下,难道那人几年后就会有不一样的命运…你不信,我也不信。但是数据挖掘的人信。
很多东西在一定程度都是我们自己加入的属性或者生成的属性,并且有些属性我们很难判断这个和我们想要挖掘出来的规律到底有何种关联,甚至就是根本没有关联。没有人知道
这些。可是我们还是想挖…不管挖出的是石油还是垃圾…

当然,我们也可以从挖出的规律中找到自己认为可能是正确的规律。但是我们也不是很清楚是不是那些垃圾数据间接影响了这些正确规律的诞生呢?你相信它是正确,那就一定是
正确的?还是因为它是正确的,你才去相信?突然想起来计算机生成随机数的例子:想让0多些,0就多些;想让1多些,1就多些。

1000多年前,宗教也是一门科学。1000年后,科学也是一门宗教。