例如,在Hedge fund market wizards一书中Jaffray Woodriff描述了数据驱动的大数据分析法。基本想法是尝试千亿种适合不同市场的二次变量组合(如价格的方向和波动率),找出能预测市场位置的统计模型。 但是,即使利用此方法,其实也使用了金融的理论创建如波动率这样的关联物,同时也选择了架构合适的时间周期作为搜索的基础(Jaffray使用的是每日数据)。
如果只关注数据,忽视了未来不等于过去的现实,就容易犯长期资本管理公司(LTCM)当年的错误,给自己甚至整个行业造成巨大的损失。因此,在从事大数据研究时,一定要注意对找出的相关性模式进行逻辑分析和样本外测试(out of sample testing),最好是发现的相关性模式不仅在样本外表现稳定,而且又具备理论上的合理性,毕竟同把尿片和啤酒放在一起不同,在金融行业使用无效模式的后果是相当严重的。