最近看了这部很火的纪录片《监视资本主义:智能陷阱 The Social Dilemma》,感触颇深,这部纪录片描述了社交网络给人类社会带来的冲击,以及造成的一系列问题。推荐大家也去看看,真的很深刻。

之前曾写过离线这是病,得电,本篇可能是相关主题的第三篇了,由于最近工作内容与此相关,对问题有了更深的理解,正好借此机会写一写。

读过本文之后,您能简单了解个性化推荐系统是如何工作的,这些技术又是如何影响人的;通过参考后面的自闭方案,达到“没有人比您更懂互联网自闭”的境界。

推荐系统是怎样给你推荐的

最近一年多,在参与推荐系统的开发,虽然只搞搞工程并不能玩转算法(由于某些特殊原因我患上了数学PTSD,更想当个文科生),但对整个推荐系统是如何运作的还算了解,以下都是根据网上有关资料结合我的理解编的段子,并不是我们的真实产品情况,请勿对号入座。

推荐系统里两个重要的元素就是User(用户)和Item(物品)。User就是我们这些待割的韭菜,Item就是等待推荐给我们的东西,可以是视频,图片,其他用户,音乐等等。

User通常有一些自身的属性,比如你走进人民公园开始相亲,大妈问你“小伙子多大啊?”“哪里人啊?”“年收入多少啊?”“家里有几亩地啊?”“能喝几箱老雪啊?”“职级P5还是P6啊?”“平时打什么游戏啊?”“吃甜豆腐脑还是咸豆腐脑啊?”“喜不喜欢肖战啊?”,这也叫用户画像。这些信息可能是你注册的时候自己填的,也可能是其他渠道收集过来的,可能是和其他厂家合作进行资源交换,也可能是各种黑产灰产,总之,你的隐私非常值钱。另外你使用产品的一举一动,都会被记录并上报,比如你点了哪些视频,一般几点打开,观看时长是多少等等。以后就可以通过分析你使用产品的行为,可以给你打一些标签,比如你喜欢看小姐姐跳舞,一般在晚上12点打开app开始刷,噢,根据重力计,你可能是躺着看的,但是推给你的购物链接你都不点,你就是可耻的穷比白嫖党,这些就是你的用户特征。

Item同样有一些属性,比如这个视频的分类是个小姐姐跳舞,时长是30秒,视频的作者是哪里人,拍摄视频的地理位置,有多少人关注她,这个视频有多少个赞等等,这些可以被整理为Item特征。

然后你要确定一个或多个优化目标,比如我这个模型,要优化用户的点击率,让用户们更愿意点击我们推荐出来的东西(准确的说是对于某个特定用户推荐给他点击概率更大的内容)。

这些海量的原始数据,会被收集存储,通过各种大数据工具进行逐层的清洗提取,整理成结构化的数据。然后,各路算法高手会对这些数据进行特征工程,从里面筛选出有用的特征,去掉对结果影响不大的特征,并且把这些特征进一步处理,折腾成能够喂给模型进行训练的格式,这个也就是样本,样本会被抽出一小部分数据作为验证集,剩下的作为训练集喂给模型训练。

然后就是魔法开始的时刻了,为什么搞机器学习叫炼丹呢?你把样本丢进去跑一圈,训练出来个模型,一般这个模型还会在测试集上测一下效果,效果好的话可以拿去用,不好的话调调模型的超参数(比如模型的层数,节点数,连接方式之类的玩意),或者改改特征组合,再跑跑,直到获得一个看起来还不错的模型。这个过程看起来十分玄学,所以称之为炼丹。

最后这个模型就会被丢到线上了,这个时候,用户会被分为多组,其中某些是实验组,使用新的模型,某些还是用旧的模型,这就是A/B实验,用来在线上验证模型的效果。算法小哥泡了杯咖啡:“今天的工作结束了,让子弹飞一会。”

下面就是线上的推荐过程。你跑过来用App了,推荐系统根据你的特征,找了一些和你相似的用户,捞了他们最近点赞的视频;捞了一些你比较喜欢的舞蹈这个分类的视频;捞了一些你最近搜索过关键字相关的视频等等,大概整了几百上千个视频,这一步叫召回,因为全量可推荐的Item太多,没法都拿去喂给模型打分,所以用召回缩小下范围。这些视频的特征和你自己的用户特征,会被喂到算法小哥训练出来的模型,对每个Item(这里就是视频)进行分数预测,最后把得分排个序,得分排在前面的几个就会最终被推荐给你。

然后你刷到第一个视频,小姐姐开始跳舞了,你看得非常开心,看完还点了个赞。很好,你的观看行为(视频看了几秒,有没有提前退出,点赞了吗,是否发了评论),会被再次记录下来,以备后续的模型训练优化使用,同时,你所点击的视频,会被推荐给更多和你相似的用户观看。

你使用得越多,被记录得就越精确,被训练出来的模型,就越知道你更倾向于点击哪些东西。你就一直刷到你喜欢的东西,一直点赞,基本上变成了脑内插电极的那只小白鼠,点赞一时爽,一直点赞一直爽。

欢迎来到赛博朋克的世界

什么时候邪恶的人工智能企图控制人类毁灭世界?现在就是了。人的一举一动,都被完整记录下来,被用来分析和预测,你的下一步行动是什么,并力图控制你按照他们所希望的情形去行动。

企业老板想做什么呢?只是想赚钱。这个目标拆解后分配到员工身上是什么呢?提高用户粘性和转化率。那么做法是什么呢?通过设计产品的互动形式,以及分析用户行为,来推荐给用户他们更感兴趣的东西,让他们更多地去使用App和在上面进行消费。而用户呢?只是普通的在使用App,希望能交换一些信息而已。

每个环节看起来似乎都很合理,没有谁想做什么坏事,就是想赚点钱混口饭,可惜的是——

“资本来到世间,从头到脚,每个毛孔都滴着血和肮脏的东西。” ——《资本论》卡尔·马克思

为了能够赚钱,人可能会做任何事,没有道德约束的机器,可以更是。模型随着每天行为手机和训练,是不断进化和更新的,而人脑的进化速度,完全无法与之匹敌。看看AlphaGo是如何在那么短的时间内进化到完全战胜人类就知道了。

机械的往下刷的动作,极具行为成瘾性,再加上每次刷都会给你一些新鲜的,你不一定预料得到的东西,就像抽卡或赌博一样让人有新鲜感和对未知的期待感,最后,这个推给你的东西,还是通过大数据分析你的各种信息计算出来的、你大概率会喜欢看的,不上瘾几乎是不可能的事情。

纪录片中对于人工智能的拟人化描写手法,虽然有些夸张,但也基本是事实——这一切的结果就是,你训练了模型,模型越来越精准,到了最后,模型反而驯化了你。

模型的训练有过拟合的风险,这种个性化推荐接触多了,人也会变得狭隘,一直呆在自己喜欢的圈子里,脑子也过拟合了。

当人工智能越来越精准,就不仅能预测你的思想和行为,还能进一步引导(控制)你的思想和行为了。以前传销什么还需要把你关在小黑屋里反复说教喊口号,现在想洗脑通过一个App几乎就能实现了。除了让你花钱买东西之外,这类技术还可以做更邪恶的事情——比如,操控大选结果?颠覆一个政权?用到极致的话,几乎就和尤里差不多,也许能限制发挥的只有想象力了。有兴趣可以看看内蒙古海参的这一期《逸语道破》

《The Social Dilemma》这部纪录片越看越觉得毛骨悚然,甚至觉得这是费米悖论的大过滤器假说的一种解释——人类有多种技术能够毁灭自己,这大概也是其中之一吧。所谓的人工智能试图毁灭人类,竟然是以这样一种隐蔽又出乎意料的方式在进行。

人类真的没有希望了吗?或许吧。

但对于个人,还是有救的。

所谓物极必反,信息的获取都依赖机器的筛选推荐,看似是自己控制了一切,实际上是把自己获取信息的控制权交了出去。解决问题的关键就是,夺回控制权,尽量脱离这种由机器主导的信息获取方式。

互联网时代自闭(自救)指南,互联网再见

纪录片的结尾,给了一些建议可以参考。我这里也写写我的戒网瘾方案,也称为互联网时代自闭指南。其实核心理念,都大同小异。

硬件

今年买了一个特别有用的玩意,就是墨水屏手机,海信A5Pro,简直国货之光。当你的手机变成了刷新率低到只有几帧的黑白墨水屏手机,你就再也不想用它刷这刷那的了,还不如看会书,这时我就会掏出我的Kindle,至少就看书这个场景来说,分辨率和屏幕尺寸更高一些。另外这个手机有个很高级的功能叫超级省电模式,你可以选6个你想用的App,除此之外其他的一概不能用。

photo_2020-10-12_21-49-24

还有免费的解决方案,把手机屏幕调成黑白能达到类似的效果,可以参考下这篇《Change Your Screen to Grayscale to Combat Phone Addiction》

另外一款叫Forest的App也很有意思,当你想放下手机的时候,可以用它设定一个时间,当你成功在这段时间内都没有碰手机的话,会在App里种出一棵树(假的,和蚂蚁森林不一样),在计时过程中,当你点亮屏幕的时候它会提醒你别玩了,如果不幸你没忍住切出去打开其他App,你的树就枯了,通过这样的游戏机制,来帮助你养成好习惯。

更极端一点,拔掉家里的网线。也许听起来挺可怕,但真正实践了,发现并没有想象中那么糟糕。

总之嘛,没事不要玩手机。

软件设定

由于我深度使用Google的各种产品,没法整体替换掉,所以就进到Google帐号设置里,把各种记录用户行为、记录搜索、个性化推荐的选项全部关闭掉,这些选项可以在 https://myaccount.google.com/data-and-personalization 这里找到。

然后,把Google搜索替换成DuckDuckGo,也可以装他们的Chrome插件,这样还有更丰富的隐私保护功能。这个搜索引擎不会记录用户的搜索行为,不会进行个性化的搜索结果排序,同样的关键词,每个人搜出来的都是一样的。

另外还有个插件叫Privacy Badger,用来屏蔽掉网页里的各种追踪脚本(比如本站也启用的Google Analytics和评论区Disqus)。

最后装个广告屏蔽插件,我用的是uBlock Origin这样网页上就更清净了。

至于各种社交网络,啥Facebook啊Twitter啊啥的,我原来也是不怎么刷的,奉劝各位也早日直接删号卸载(

然后,在手机系统里,关闭所有软件的通知推送(Notifications),然后卸载掉所有用不上的App,包括各种社交App和购物App(实在想买东西的时候可以装回来用嘛),只留日常必须的(比如上面那6个)。

退订各种不需要的邮件订阅。

最后,在微信的功能管理里,关掉朋友圈等各种额外功能的入口,取消关注所有公众号,退掉各种没什么用的群,留下的群也开启消息不提示。

电脑上,同样卸载掉没什么用的软件。如无必要,避免打开各种聊天软件。

行为自省

另外,如果你想追踪自己平时都在沉迷什么,可以在手机和电脑上都装好RescueTime ,来进行记录,和自我反省。他的付费功能也很有用,在你需要集中注意力的时候,可以屏蔽掉各种社交网络页面,提醒你该好好工作。

最后警惕各种无限滚动feed流/带翻页的网页/聊天窗口/相关链接/邮箱,时刻关注自己在干啥,并自觉地关掉,这一步的关键是,打乱自己刷刷刷这个动作的节奏,避免形成下意识的习惯。

当然,过不了多久,你可能像纪录片里的男主角一样,开始出现戒断反应了,最好能给自己找点事做,用有意义的事情把自己的生活填满,走出门亲近一下大自然,不要整天蹲在家里硬撑了,意志力是最不靠谱的东西。

最重要的是,要有抛弃整个社交网络的决心,对,就是那句“Who 他妈 cares.”

我觉得自己还可以抢救一下

如今,世界灾难频发,国际局势动荡,社会加速内卷,人们的情绪更难控制了。隔三差五就听到了哪个中学生跳楼了,哪个研究生上吊了,哪个上有老下有小的中年程序员被裁员崩溃了,实在令人叹息。

感谢CoC TRPG教会我们SAN值这个重要的概念,就像去年我年初时在这篇你可能是人,但我是真的苟——2019 年终吐槽,也叫 2020 年初吐槽中提到的,在这个时代,SAN值控制变得更加重要了。

我们逐渐发现,精神健康,和身体健康,一样至关重要。

"you are what you eat."

同理,你听的、读的、看的,它们一样会塑造你,成为你的一部分。吃饭尚且要注意荤素搭配,少吃地沟油料理,那么对于自己的精神呢?真的能够任由机器把乱七八糟的所谓“你可能会喜欢”的信息塞过来,并且自己没有任何抵抗、或对此没有任何反思吗?

如今的社交网络对于心智较为成熟的成年人的影响尚且如此巨大,那么对于大脑有着更强可塑性的青少年呢?这一切会造成怎样的后果?想想都觉得不寒而栗。孟母三迁的故事大家都听过,但又有几个家长能抵抗抖音的诱惑,放下刷个不停的手机,能拒绝无聊节目的吸引,关掉电视,去亲自陪陪自己的孩子,而不是嫌孩子太烦、丢个iPad过去让他们自己玩呢?

我时常反思自己是怎样使用网络的,也试图改进,总是发现困难重重,但仍觉得自己还可以再抢救一下,也许这就是所谓的求生本能吧。

知易行难。


这家名为reMarkable的电子书品牌有个广告片《Get your brain back》,很有意思,值得一看