当数据分析成了一门显学,算法会左右你的终身大事

-回复 -浏览
楼主 2020-06-13 06:56:20
举报 只看此人 收藏本贴 楼主
企业内训培训

当数据分析成了一门显学,算法会左右你的终身大事

你愿意你的终身大事被算法安排吗?如果有一天算法将比你更加了解你自己,你准备好相应的心智模块了吗?本期数据侠将比较机器学习和传统数据建模的区别,并用最优停止理论教你:下次再遇到逼婚的,就可以告诉父母,数学家已经证明了,33岁之后再选择遇到最好的那个也不迟。

算法将比你更加了解你自己?

听过了很多道理,却依然过不好这一生。

这是很多人的困惑。这篇小文想讲的是,任何一场科技中的浪潮,都会带来方法论上的变革。关于人生中的抉择,人们总是用当前最热门科技中的概念去类比。正如Carl Sagan(美国天文学家、天体物理学家、宇宙学家、科幻作家)所说:Science is a way of thinking much more than it is a body of knowledge(与其说科学是一套知识体系倒不如说是一种思维方式)。授人以鱼不如授人以渔,了解了方法论的变革,才会带来元认知上的升级换代。

在过去,当我们站在人生选择的十字路口,我们会从古代先哲的话中去寻找启迪,会听从当地宗教领袖的话,到了启蒙运动之后,社会的主流意见变成了听从你内心的声音。然而,随着数据在我们的生活中占据了越来越重要的位置,我们做决策时也需要拿出数据和图表,用量化的数据以及算法来指导我们的决策,而不只是做你自己喜欢的事。

为什么我们不应该只追随自己的inner voice了?这是因为当代心理学及其衍生出来的行为经济学已积累了足够的证据,说明人类会系统性的犯错误。关于这个话题,最著名的论述就是《思考,快与慢》这本书,另一本值得看的书是《进化的“乱乱脑”是怎么让你不完美的》。

另一方面,在《A brief history of tomorrow》这本书中,作者指出,做出明智的决策,自我意识的存在不是必要条件,很多Non-conscious but highly intelligent(不自觉的高度智能化)的算法即将在未来变得比我们更加了解自己。但我们有些时候却不愿相信算法帮我们做出的决策,尤其在面对人生的关键选择时。

最优停止理论:33岁后再选择遇到最好的那个不迟

例如,你愿意你的终身大事被算法安排吗?

当一个程序告诉你,你应该和A结婚,尽管你觉得B更有魅力时,你会听程序的安排吗?要回答这个问题,最好我们先了解程序背后的算法逻辑,否则在对算法一无所知的情况下做出的选择,不会是一个明智的选择。在不久的将来,算法将会或显或隐的影响你的选择,你准备好相应的心智模块了吗?

举一个具体的例子,假如一个非常优秀的人参加选秀节目,已知追求的他的人有有限个,例如10位,选秀节目规定,他不能脚踏两只船,即不能同时和两个人交往,如果在交往之后他没有接受这个人,那么,以后也没有机会再选择这个人作为对象。然后接着和下一个人交往。他该怎么办?

对这个问题的回答,有两种思考方式,先说机器学习的方式。

一个做机器学习的人拿到这个问题,首先会做的是收集数据,假设上面提到的选秀节目进行了100期,那么要收集的数据包括这一百期节目中每位男嘉宾的年龄,学历,身高,职业等结构化的数据,还会收集台上发生的对话这样非结构化的数据,最后在通过对每位女嘉宾的事后访谈,确定各位女嘉宾是否后悔自己的选择,是否和男嘉宾有更多的发展。之后将所有的这些数据放入多个模型中,目标是找出一套规律来,来指导未来参加这个节目的女嘉宾,让她们能做出让她们最不后悔的选择。

不同的模型给出的规律会各有不同,有的模型很简单,会告诉女嘉宾找和自己年龄相差最小的,有些规则会很复杂,会告诉女嘉宾去找又高又年轻的程序员但是却要比自己大1岁到3岁。

另一种方法是传统的数学模型。关于上文提到的问题,有一个现成的数学理论可以去对这个问题给出最优解。

Optimal Stop Theory (最优停止理论)是一个在金融衍生品定价中应用很广泛的理论,假设每个女嘉宾可以对男嘉宾给出一个唯一的打分,但女嘉宾不清楚这届男嘉宾的整体水平怎么样,需要拿前几个去摸索一下自己应该把标准定的多高,又担心久久不选择,错过了最好的那个,那么Optimal Stop Theory 给出的答案是37%,在37%之后,女嘉宾应该不要犹豫,只要遇到一个比之前的选择都得分高的男嘉宾,该将就就将就吧。

对于这个问题的数学建模,感兴趣的童鞋可以自己去推算出上文提到的37%来。

在男嘉宾的数目不同时,女嘉宾按最优停止理论应该采取的最优策略,以及对应的有多少比例找到这一组中男嘉宾中最好的那个,有63%的概率遇不到最好的那个这不是一个好消息,但从另一方面来看,最优停止理论保证了不管男嘉宾有多少个,女嘉宾总能有差不多的几率找到最好的那个。

将选秀节目中的场景反射到生活的时间之流中。我们每个人也都会遇到或多或少几个追求者,也会在到底是该等待唯一的那个人,还是就这么嫁了中彷徨。假设我们的平均寿命是90岁,那么最优停止理论告诉你可以在33岁前去扩大你的选择,过了33岁之后,再选择遇到最好的那个不迟。下次再遇到逼婚的,就可以给父母亲戚推一推公式,告诉他们数学家已经证明了,再等几年是最优的选择。

(萌主补充:最优停止理论 Optimal Stopping Theory, 在经济学、金融领域使用非常广泛,例如美式期权在股票交易中看涨看跌,执行期权,基本都使用停止理论来求解。但是实际上,除了相亲问题,这一理论同样适用于买房问题、经典的秘书问题等等)

机器学习和传统数学建模

比较一下机器学习和传统数学建模的方式,机器学习处理多维的、复杂的数据,其模型相比数学模型,需要更少的假设条件,其得出的结论,不会保证其一定是最优的。而数学建模,首先假设了男嘉宾出现的次序和其质量是独立的,更重要的是,其要求女嘉宾对每一个男嘉宾有一个唯一的打分。如果真的能这样,生活中的选择就简单多了。所以说,尽管机器学习有时会给出一些不那么靠谱的选择,在面对现实的问题时,不过度的简化问题,是给出的解答有用的一个必要条件。

不过,不管是什么方法得出的答案,数据指导的思考方式要求你去做验证,要求你去质疑假设,并看看将某些假设做了修改后,答案又会变成怎样。比如上文提到的问题,如果假设在女嘉宾拒绝了男嘉宾后一次,男嘉宾还会接受女嘉宾,那么女嘉宾的最优选择应该是什么了?又比如女嘉宾能给男嘉宾一个0到100之间的评分,而不是不清楚这届男嘉宾的分数上下限的时候,又应该采取什么样的策略了。

数据时代,首先要说的是:质疑你的假设。

关于验证你的结论,最弱的证据是个人的经验,稍微强一些的是案例分析,即名人的传记访谈,因为第三方的视角会去除掉自我记忆的和认知中的偏见。更好的证据是统计分析,比如查一查结婚的年龄和离婚率是否相关,如果在20到40岁之间,排除其他因素,结婚年龄太早或者太晚的离婚率很高,再通过问卷调查,得出对婚姻的满意程度,结果发现按照当时的预期寿命,相应年龄结婚的伙伴满意度最高,那么说明最优停止理论还是有一定道理的。

比统计更高级的验证是机器学习中最常用的Cross Validation(交叉验证:是一种评估统计分析、机器学习算法对独立于训

我要推荐
转发到