大数据事件

研讨会、网络研讨会和自带午餐!

每个学期,该计划都会赞助或共同赞助各种专注于大数据问题的重要活动。这里是最新的事件供你思考-来享受:

4月7日10:30 |大数据架构与项目

当Nathan Marz在2012年创造了Lambda Architecture这个术语时,他可能只是在为他即将出版的书寻找一个有点意义的九州体育。毫无疑问,Lambda架构已经获得了牵引力,以灵活和可扩展的方式作为构建大规模分布式数据处理系统的蓝图。但事实也证明,Lambda架构有一个有时被忽视的方面:人为容错。人是会犯错的。机器没有。机器的规模。人类没有。通过回顾我们的客户和合作伙伴的分布式应用程序的实际架构,我试图找到以下问题的答案:

    • 哪些Apache Hadoop生态系统组件对Lambda架构的哪一层有用?
    • 在选择某些组件时,对人的容错性有什么影响?
    • 在三层Lambda架构中使用某些Apache Hadoop生态系统组件是否有良好的实践?

主讲人:Michael Hausenblas, MapR Technologies EMEA首席数据工程师,会议将在DH - 450举行

4月9日@1:30 |大数据分析:H20入门

数据建模受到规模的限制;抽样仍然是Adhoc Analytics的主流。比例给建模世界带来了急需的变化。在这次演讲中,我们将展示在大数据集上使用复杂算法的预测能力。随着大数据规模的出现,包含多个非对称稀有类的不平衡数据的特别困难的问题出现了。缺失的特征给大多数分类和回归算法带来了独特的问题,适当的处理可以带来更大的预测能力。在“更好的预测”竞赛中,H2O通过一个易于使用的软件产品为任何人提供实用的技术。

H2O是一个开源的大数据数学和机器学习引擎,它为强大的算法带来了分布和并行性,同时保持了广泛使用的R和JSON语言作为API。并巧妙地集成到hadoop、amazon s3、nosql和sql等流行的数据生态系统中。我们简要讨论了分布式随机森林和广义线性建模实现中的设计选择,并为数据科学,r的普及带来了速度和规模。我们看到了优雅的乐高式基础设施,它在简单的分布式数组上为数学带来了细粒度的并行性。一个简短的黑客数据演示展示了数据科学的生命周期:通过R进行大规模的强大数据操作,大型数据集的交互式摘要,使用弹性网络(GLM)建模,网格搜索最佳参数和低延迟评分。该活动将在MH225举行。

4月14日@1:30 |大数据分析:动手与H20

数据建模受到规模的限制;抽样仍然是Adhoc Analytics的主流。比例给建模世界带来了急需的变化。在这次演讲中,我们将展示在大数据集上使用复杂算法的预测能力。随着大数据规模的出现,包含多个非对称稀有类的不平衡数据的特别困难的问题出现了。缺失的特征给大多数分类和回归算法带来了独特的问题,适当的处理可以带来更大的预测能力。在“更好的预测”竞赛中,H2O通过一个易于使用的软件产品为任何人提供实用的技术。