人工智能(AI)用到的大数据是收集到的?

关注者
47
被浏览
1,270
收录于 知乎圆桌 ·

AlphaGo胜利后,大家对人工智能的热情只增不减,听说AlphaGo是分析了三千万盘对弈的大数据,总结出一套下围棋的最优解。海量数据是人工智能的基础,这个结论毫无异议。生活中其实我们已经有了很多人工智能的应用,比如今日头条的个性化推荐,百度的无人驾驶等,大大小小的企业都希望能够通过人工智能将业务升级,可数据究竟是怎么采集上来的?可以说大部分的场景还是要主动来收集的,部分的场景可能是自我创造的,比如说AlphaGo Zero就是通过自我对弈,不依赖与人类的知识,然后生成的数据。

因为我是主要在做用户行为分析,用户行为可以用于个性化推荐、精准广告、风控等场景,这里就讲一讲用户行为分析中的数据收集问题。用户行为数据基本可以用于两种场景,驱动决策和驱动产品智能,驱动决策就是我们说的BI,而驱动产品智能就是我们说的AI。这里涉及到埋点与不埋点两种方式。

企业追求数据驱动产品与运营,数据基础夯实与否,取决于数据的采集方式。埋点方式多种多样,按照埋点位置不同,可以分为前端(客户端)埋点与后端(服务器端)埋点。行业差异性明显、企业实际需求不同,我们接触过很多企业对于怎么选择数据采集方式还没有明朗的观念,这也是我们这份总结的由来。


适合前端埋点的企业业务需求

无论是自建数据分析平台,还是采用第三方数据分析工具,梳理企业需求是第一步,随后按照企业需求完成事件和埋点方案的设计,这也正是神策数据为客户提供多维度数据分析的根基与前提。一般而言,以全埋点(无埋点)为典型代表的前端埋点方案,适合有以下需求的企业。

1.处于运营初级阶段,产品功能相对简单

如阅读类、词典类工具性 APP 的企业客户,在其发展初期的产品运营阶段,产品功能较为基础,无明确业务数据、交易数据,仅通过 UV、PV、点击量等基本指标分析即可满足需求。由于神策分析(Sensors Analytics)支持全埋点,SDK 支持默认采集 APP 或者网页浏览页面、激活、启动等前端数据,这类客户可以基于此衡量用户留存以及活跃度。


2.需要分析与后端没有交互的前端行为

若运营人员工作需要判断前端界面设计是否合理,是必须采用前端埋点方案的。这也是后端代码埋点无法完全代替全埋点的原因。


强烈建议后端埋点的业务需求

除了支持“前端埋点”(全埋点)方式,为了保证数据采集做到“大、全、细、时”,我们更推荐“后端埋点”:当前后端都可以实现数据采集时,应优先考虑后端(代码)埋点,尤其在各行业中有特殊业务需求的数据,更是强烈建议通过后端(代码)埋点方式采集。总的来说,“后端(代码)埋点”,或者“后端(代码)埋点+全埋点”方案,适合有以下需求的企业。

1.追求精细化运营,需要进行多维数据分析的企业

更多的企业有精细化运营的诉求,科学埋点为运营人员后续进行多维度分析提供保障。以神策数据客户为例,《迷城物语》的技术负责人马宗骥,公开分享数据驱动游戏设计中介绍:在游戏领域想实现实现精准运营,进行多维数据分析应该优先考虑后端埋点,单纯依赖前端数据采集有许多弊端。

例如,有时玩家已经退出游戏,但是链接还在,则前端采集不准,此时PCU数据无法正确衡量服务器的负载情况、数据库的压力情况等,而通过后端代码埋点解决了这一问题。再如,他介绍:“NPC(非玩家控制角色)状态、副本状态、经济系统实时状态等统计类数据,这些是前端埋点无法统计到的,而在后端采集数据可根据实际情节灵活完成数据统计工作。”

如下图,在神策分析平台上,帮助运营人员精准找到游戏流失点。在100~110级流失的玩家所操控的角色大多停留在“打怪”动作上,机械地打怪练级,玩家开始感觉枯燥甚至疲惫。找到这一“流失点”后,《迷城物语》运营人员可以适当调整该关卡的怪物数量,并增加新鲜因素,从而平衡游戏趣味性和玩家精力。

《迷城物语》玩家“流失点”分析


2.包含用户资产数据、用户账户体系相关数据、风控辅助数据等重要业务数据的网站或 APP 的企业

如电商客户、互联网金融包含用户认证身份信息、手机号码、充值账户信息等数据,前端数据无法进行深入分析。再如,在互联网金融企业,最大痛点莫过于揪出“羊毛党”了。“羊毛党”手里握着大量的代理IP、手机虚拟号。这一群体特征十分明显,通常经过注册、领取福利、流失的流程。这就需要运营人员从 IP、设备信息、注册信息、活跃度等进行多维度分析。用户留存是互联网金融企业判断客户是否是“羊毛党”的方式之一。

如下图,一般用户完成新手项目(领取福利后),未进行第二次投资,则可能是“羊毛党”成员,在该平台上点击相关数字,将人员明细会详细展示,可以一定程度上解决“羊毛党”的问题。

“羊毛党”用户甄别——留存数据细查


3.对数据安全要求比较高的企业

从后端采集数据,例如采集后端的日志,实质上是将数据采集的传输与加密交给了产品本身,认为产品本身的后端数据是可信的。而后端采集数据到分析系统中则是通过内网进行传输,这个阶段不存在安全和隐私性问题。同时,内网传输基本不会因为网络原因丢失数据,所以传输的数据可以非常真实地反应用户行为在系统中的真实体现。基于后端采集此优势,神策分析目前提供了 Java、PHP、Python、Ruby 等后端语言的 SDK,以及 LogAgent、BatchImporter、FormatImporter 等导入工具,支持在后端采集。

适合“前端全埋点”的企业需求与适合“后端代码埋点”的企业需求


综上所述,没有任何一种通用数据采集方式,是适合所有企业业务诉求的。根据行业领先企业实践来看,后端代码埋点才是距精细化运营最近的数据采集方式;不从行业特性、自身实际需求出发的数据采集方案,都是耍流氓。

前面的例子场景,是偏向BI的说明,有了这些基础数据,只要给机器去使用,套上一定的算法,就可以实现个性化推荐、精准广告等AI场景了。