发布时间:2019年08月23日

赋能您的数据分析计划


当前,数据分析的价值不言而喻。近年来,数据分析已成为足以改变游戏规则的技术,颠覆了几十年来的行业习惯。随着分析技术的日趋成熟,越来越多的企业开始积极推动数据分析技术的应用,以寻找创新的解决方案应对各种业务需求,从欺诈预测,到定制个性化的消费者体验。

虽然已有很多成功案例广为人知,但是对大多数企业而言,数据分析技术仍然有些难以捉摸。许多公司一直在探索如何在业务中应用数据分析。不过,这些举措在很大程度上仍然局限于实验的层面,还停留在概念验证(POC)阶段。

实际上,大多数企业所面临的挑战并不仅仅是最初应用数据分析的决策,还有如何在生产环境中实施这些数据分析工作。

打造工业级别的分析解决方案,性能是关键

对于希望扩大其数据分析工作规模的公司而言,这个过程往往太过复杂,充满未知。首先,优先事项可能会发生变化。在概念验证阶段,预测准确性可能是检验成功最重要的标准。公司一般会创建一个沙盒环境,项目数据科学家可以在其中测试和试验分析模型和算法。

但是,当企业推出运用嵌入式算法的实际产品时,他们面对的是成熟的数字用户,而这些用户期待的是高质量的用户体验。算法在准确性、速度等方面的性能表现,都将对该款产品最终能否被广泛采用有所影响。

为何用户体验往往成为决定一款产品受欢迎程度的关键因素?我们不妨用谷歌的搜索引擎作为类比来试着解释一下。搜索引擎在本质上就是一个复杂的分析机器学习模型。当我们使用谷歌的搜索引擎查找信息时,我们期望得到准确的结果,而这是由算法决定的。此外,我们作为用户的另一个期待因素理所当然是检索速度。我们可不想为了一个搜索结果等上五分钟。

数据湖——数据集成的解决方案

目前,大多数概念验证是在较小的可控范围内完成的,且局限于一个企业里的几个部门。在此阶段,数据通常是在离线状态下从各种来源中手动提取,然后混合在一起进行分析,并从中得出洞见。

如果概念验证成功,接下来的目标通常是将该项目扩展到整个公司范围。这时,输入的数据量可能会成倍增长,而集成各种来源的数据就成为了一个挑战。这也意味着需要改变处理数据的基本方式。公司在开始进行分析之前,可能需要考虑建立一个数据存储库。

随着数据量、种类和速度的增长,许多公司都希望建立一个数据湖,作为一个能够容纳从多种来源获取的结构化、非结构化和半结构化等所有不同形式数据的中央存储库。数据湖会保留数据的所有属性,并支持那些对于数据的范围和目的尚不清晰的分析任务。在许多行业中,数据湖已经越来越多地被用于解决数据集成问题,以获得更清晰的可见性,消除数据孤岛。

然而,数据湖的属性也意味着,如果维护不当,它很容易变成充满劣质数据的数据沼泽,而如果依赖这些数据产生洞见,其效果无异于在能见度低的浑浊池水中潜水。

维护高质量数据,需要仰赖强大的数据治理

防止数据湖变成数据沼泽的非常可靠的一种方法是,建立强大的数据治理策略和流程,从而确保数据的完整性和质量,同时运用工具来实施这些数据治理策略。没有高质量的数据,再复杂的分析技术也无法获得理想的结果。那将只会是“无用的输入,无用的输出”。

可惜,在概念验证阶段,数据治理往往不是数据分析项目的重点。然而,当数据分析计划进入规模化生产阶段时,将会有更多的用户参与其中,风险也会更高。这时,任何因不完整或错误的数据而出的错都将比以往产生更大的影响。

因此,数据治理的防守作用至关重要,它可以确保维护数据的完整性,并降低数据处理不当的风险。

超越概念验证,不仅需要技术技能

目前更大范围的行业趋势显示,企业面临的一个很大的障碍就是吸引和留住合适的人才。

目前,数据科学是一个相对小众的领域,从事该领域工作的专业人士往往拥有IT、数学或统计学背景。然而,未来的数据科学家需要具备横跨人文、社会科学、商业等不同学科的技能。对于想要将概念验证投入生产的企业而言,这种技能差距将会是一个主要障碍。

例如,在概念验证阶段,出于方便和节省成本的考量,大多数数据科学家倾向于使用R、Python等开源语言编写高级分析算法。结果的呈现则选择简单的数据可视化格式,以方便与业务部门进行沟通。但是,要持续部署这些分析算法,就需要将它们嵌入业务用户常用的应用中。这些应用往往是采取基于Web或自定义应用的格式。在设计此类应用场景时,需要注意各种不同的构成。例如,应遵循以用户为中心的设计原则,这就需要设计思维、应用开发技能以及数据科学知识。

最终,要成功地将数据分析工作从“温室”(即概念验证阶段)转移到现实生产,需要的是兼具业务头脑和技术技能的专业人才。

从概念验证到投入生产的五个关键步骤:

数据科学模型需要嵌入到业务用户常用的应用中。性能也是一个重要因素——构建算法的代码必须进行优化,以实现在可接受的时间内交付结果。

大多数概念验证项目仅使用总生产数据的一个子集来执行。而设计和搭建适当的基础架构时,则需要匹配适当规模的数据,这很重要。有时需要像Hadoop这样的大数据架构,有时传统的数据仓库就足够了。

在生产环境中,数据量会不断增加,也会更依赖于用户选择的模型输出。为了防止发生“无用的输入,无用的输出”的情况,数据质量和数据完整性至关重要。

在概念验证期间,数据往往是从源系统脱机手工提取的,再经过转换才会执行数据分析任务。这些重复劳动最耗时耗力。在扩大应用场景后,提取——转换——加载(ETL)的过程应在最少的人工干预下实现自动化。

为了保持算法的有效性和相关性,需要使用新数据定期对其进行重新校准和重新训练。因此,需要建立系统化、结构化的方法,持续管理这些模型,这一点至关重要。

1. 在应用中部署模型

2. 估算生产环境中的数据总量

3. 实施强大的数据治理

4. 实施流程自动化

5. 执行持续的模型管理和维护

想要了解如何加强您的数据分析计划,快和我们联系吧!

点击阅读《进行分布式开发,方法要实用才行!》,了解更多相关领域内容。


分享到:

探索恩士迅(NCS)

精彩实践

如何更好地设计你的职业生涯?如何提升你的技能?

了解更多

工作机会

了解恩士迅(NCS)的精英团队,认识来自各行各业的人才。

了解更多

人才计划

了解你在恩士迅(NCS)会有怎样的职业发展机会?

了解更多

输入关键词,按回车键搜索

联系 恩士迅 (NCS)

为方便后续的跟进,请您在提交咨询表格时,尽可能填写完整信息,并指明您的具体需求。我们会尽快与您联系!

021 6141 5511

Thank you for your enquiry! We'll get back to you as soon we can.

Thank you for your interest.