优品财富深耕自然语义识别 机器替代大量人工
2016-08-12
eNet&Ciweek
金融科技必须有扎实的专业底层技术支撑,才能不断创新服务,提升效率。优品财富的大数据团队近日又有新突破——采取自然语义处理的文本挖掘技术,通过技术建模、人工智能技术构架证券知识图谱,进一步运用决策树随机森林、支持向量机等算法进行“机器学习”,对每日实时抓取的数十万财经资讯自动化标签索引处理。最终从海量资讯挖掘出市场热点、热门个股,以及最优标的证券、交易策略、买卖时点,真正意义上实现“资讯即价值”。当前,在国内拥有财经大数据挖掘平台和能力的公司屈指可数,新锐金融信息服务商优品财富作为其中一员,既掌握关键底层技术,又具备强大金工建模实力,力图打造财经领域的AlphaGo。
据优品财富大数据中心负责人胡春华介绍,业内财经资讯结构化处理主要是以人工方式完成,对每条资讯构建多个维度的标签或关联。这种传统的资讯处理模式,在碰到单条资讯内容涉及到关键词库存在数以百计的多项选择时,人工难以为继,准确性与全面性也无法保障,更不用提关键词库自身的更新问题。
伴随着金融科技时代的发展,以前是每天处理两三千条资讯人工尚可应付,现在随着社交网络、新媒体、自媒体等新平台的兴起,财经资讯量激增到每天数十万条,机器智能处理势在必行。还有,以前资讯的价值在于每篇文章内容提供的信息,属于大文本尚未完全挖掘的领域,而如今在大数据应用场景下单篇资讯的价值在降低,而蕴藏在资讯字里行间反映用户投资行为、情感等海量信息则备受投资界推崇,资讯的海量处理和“原子”级别的语义识别都离不开自然语言处理。
优品财富大数据中心通过搭建大数据底层平台和关键词提取技术,实现程序自动提取关键词、精准去除重复资讯、自动化多维标签等工作,从而达到95%以上资讯机器处理,大大减少人工成本投入。此外通过大数据文本挖掘技术,对泛资讯如财经网站、股吧、论坛等进行深度挖掘,发掘舆情动向,重构证券投资信息服务领域全面应用框架。这类涉及到大量的文本文件数据读取和计算,新的框架相比传统单纯的关系型数据库在业务处理效率和技术性能上显然有不可比拟的优势。
7月中旬,优品财富大数据中心采用了大数据资讯处理模块,构建了结构化、半结构化、非结构化数据处理系统框架,使用的是CDH版本。CDH是Cloudera发布的100%开源、满足企业大数据应用需求的Hadoop生态系统平台, 基于Apache Hadoop生态系统组件的二次开发,优化了组件兼容和交互接口、简化安装配置、增加了Cloudera兼容特性,是 Apache Hadoop 及相关项目集成最完整、经过测试的稳定发行版本。
通过使用Hanlp自然语言处理包,底层算法经过精心优化,极速分词模式下可达2,000万字/秒,内存仅需120MB。在IO方面,词典加载速度极快,只需500 ms即可快速启动。
优品财富采用机器处理证券资讯至今,各项指标运行平稳可靠,相似新闻及杂质新闻的排除量由37.04%提升到了49.95%。大数据过滤后提供的新闻,同质化新闻问题下降5%左右,价值新闻量提升至96%。
此前,文章标签全部都是通过纯人工处理,目前采用大数据自动给文章打各类标签,为了保障数据的精确性,辅以人工审核,极大的节省全人工标签的工作量。目前机器处理了新闻关联题材、个股、基金、机构。从当前效果来看,关联个股、关联基金都可以达到机器处理85%左右的工作,而相关题材更是高达96.35%,相关机构由于干扰因素较多,还不容易做到唯一识别,因此只挑了“银行、保险、证券公司、基金公司”这几类做机器处理,后期还将引入机器学习算法,优化自然语义识别,不断提升机器处理的广度和深度。
据介绍,优品财富是一家国内领先的金融科技公司,以大数据、云计算、人工智能等金融科技为核心,重构证券投资服务生态,致力于打造全方位、一站式、开放式云端智能证券投资服务。优品财富公司总部位于深圳,在北京、武汉、广州、香港等地也有布局,已建成一支超400人的专业团队。其中,研究、IT技术、大数据专业人员300多名。5年来,扎实的底层技术驱动着各项业务快增长,证券交易、投顾、资管、新媒体等用户量达到了百万级,用户转化率在同行业中居首位。