R Event

这是我第一次参加 R 语言的活动, 作为一个 R 的初学者, 我认为参加这个会议会对以后的学习有很好的指导作用. BTW, 反正好多都听不懂…Orz

会议内容涉及到很多方面, 虽然听的很累, 但是收获还是很多的(今天不总结, 明天还怎么愉快的参加 GDD?):

R 数据分析和可视化方法

处理高维海量数据的变量选择方法

在做数据分析过程中, 我们经常会面临很多样本小, 维度高的数据, 这个时候我们需要使用变量选择的方法来提取重要的信息:

  • 经典的变量选择是基于 AIC, BIC, Cp 准则, 通过前进法, 后退法, 逐步回归法, 最优回归子集法等
  • 面对超高为海量大数据的变量选择方法: LASSO, Adaptive LASSO, SCAD, MCP, SICA, Elastic Net, Bridge, Group LASSO 等

这部分内容其实不太理解, 只能照搬了…

quantmod 量化模型包

这是一个金融数据统计建模的 R 包, 简练的封装了数据获取, 数据预处理, 金融数据可视化和金融数据建模及回测于一身的分析体系.

模型库中包括了线性模型, 广义线性模型等常用的模型形式, 同事也包括了随机森林, 支持向量机等机器学习类算法.

并行与分布式随机学习

这块只记住了什么是监督学习, 什么是非监督学习…

讲师介绍了他们自主研发的 Spark 大数据机器学习平台: https://github.com/LIBBLE/LIBBLE-Spark

R 更炫酷的可视化

最近比较流行的可视化的包有:

  • htmlwidgets
  • networkD3
  • diagrammeR
  • REmap
  • leaflet
  • threejs
  • wordcloud
  • timevis
  • d3heatmap
  • plotly
  • rhkeh
  • recharts
  • rcharts
  • highchartsR

R 在行业内的应用

大数据在视频媒体中的应用

这块内容是我最感兴趣的, 因为讲师讲的比较通俗易懂, 主要的核心思想是:

  • 数据驱动业务
  • 数据分析过程中的时间分配:
    • 75% 数据清理
    • 5-10% 建模分析
    • 15-20% 数据报告

视频行业关注的内容

  • 观察在线视频的情节点数据, 决定综艺节目的内容
  • 通过数据分析来了解哪些因素对视频的播放量影响比较大

了解到的工具

同时, 不管在综艺节目行业还是汽车行业, 要分析的数据不仅仅只依托于主动获取的播放或者浏览数据, 很多时候也要参考第三方数据, 例如:

  • 百度指数
  • 艾瑞统计等第三方行业数据
  • 竞品个数
  • 舆情分析(豆瓣评分)
  • 产品质量(制作成本)

大数据在金融风控领域的应用

随着互联网的发展, 贷款行业也从线下的大额贷款慢慢发展为线上的小额信用贷. 那么线上风控就变得很重要, 除了个人征信信息(信贷数据, 资质数据)之外, 还需要通过分析其他信息(消费数据, 行为数据)来控制欺诈风险.

这个讲师主要介绍了行为数据的分析方法:

  • 行为数据的获取(行为数据基本分布在个互联网公司, 例如: QQ 群, APP 安装列表)
  • 自然语言处理技术
  • 二部图游走法发现更多衍生变量
  • GDBT 分类方法

大数据在量化投资领域的应用

这部分的内容, 我对投资理论的收获比数据分析方法多很多:

  • 制定投资策略时, 一定要搞清楚期望收益来自哪里, 要不然就跟赌博没有区别, 不知道收益从哪里来的, 必然不知道是它是怎么失去的
  • 树立正确的投资价值观, 预期收益不能太离谱, 理性的控制自己的欲望, 不要自作聪明
  • 注意投资多样化, 控制风险因子, 达到收益和风险的平衡
  • 在成熟的经济市场也可能存在不理性的行为
  • 基于准确的数据来思考自己的投资策略

分析方法

  • 投资的三面魔方
  • 投资策略: 趋势类策略, Value 价值投资, carry 携带式策略, 波动率策略
  • 资产定价理论, 投资组合理论, 市场有效假说

数据专案 - 数据咨询公司

这位讲师分享了他们在做数据专案过程中遇到的问题, 非常有意思.

不管什么行业, 作为乙方, 总会遇到很多问题. 这位讲师就列举了很多:

  • 资料的极限
  • 资料的品质
  • 探索性分析模型的选择
  • 报表的制作

R 在一些新行业的探索

教育行业

讲师致力于建立一个教育行业的 R 包, 来解决教育方面存在的问题. 是很好的探索方向, 我不是悲观主义者, 但是觉得他们研究方向还不明确.

新闻行业

这个讲师介绍了数据驱动的新闻行业有那些成就. 讲师认为面对互联网加速的时代, 新闻行业缺乏技术方面的人才, 就比如精通:

HTML, CSS, Javascript, R, Python

这是一个为期两天的讲座, 按照我这次的经验, 我觉得去第一天就够了, 因为人的精力不够, 不可能对一个话题维持两天的高强度的学习热情, 说实话, 第一天的收获很多, 第二天虽然也参与了但总感觉心不在焉, 也会让情绪变得很糟糕, 超影响周一的工作.