首页 » 互联网杂谈 » 正文

参加GITC 全球互联网大会感受总结

整体感受


GITC 全球互联网技术大会举办了有两三年了,也是第一次参加这种会议,这种会议感觉现在越来越多,而且是年底,
对于这些会议我觉得他们讲的东西不一定正好是你所做的领域,会议期间也不一定能完全听懂他们讲的一些实现细节,
基本都是点到为止,但是我们可以在他们的思维的一个一个点中去吸取一些东西,开阔技术视野,还是非常有好处的。

我主要听了数字营销专场,大数据专场,创业专场,一些我觉得有用的东西给大家整理下

大会ppt下载地址:

http://www.thegitc.com/download/2016bj

数字营销与大数据专场

1、列举提到的常用算法模型

XGBoost (基于集成学习中的boosting思想,蘑菇街的技术介绍中提到)

http://www.tuicool.com/articles/FNzI3aZ

LR/GBDT( Logistic regression 逻辑回归)
是一种分类算法, 例如,可以用它来判断一个用户是否会点击一个广告(会点击/不会点击)

http://www.tuicool.com/articles/Fbiuu2b

http://blog.csdn.net/lilyth_lilyth/article/details/48032119

TFIDF (是一种用于信息检索与数据挖掘的常用加权技术)

朴素⻉贝叶斯、HMM、svm

主题模型 LDA、PLSA

深度神经⽹网络 CNN、RNN、LSTM

基于word-embedding 的短文本向量化

2、架构图
搜狗大数据平台架构图
WangWang20161214163246

蘑菇街广告架构图
WangWang20161214163331

广告CTR 预估流程图
WangWang20161214163419

新浪金融大数据平台
WangWang20161214163450

机器自动生成优质文章图谱
WangWang20161214163535

3、 sogou的短文本用户画像构建
整体思路是(自己画了一张流程图):
WangWang20161214170532

整体每一步中都利用了机器学习的技术
比如 地理位置,用户身份识别中的分类算法GBDT ,贝叶斯等
在短文本query的理解中会结合用户搜索的query以及点击的商品标题做短文本的扩充,这和我们seo做内链构建是一个思路,然后把这个query 结合用户归并到一个垂直行业中,比如这个用户喜欢奢侈品等,构建他的购买画像的属性

一些有趣的思维方式

1、 从0到100的渐进式思考框架

know

we know (我们知道这个事情是错误的)
are facts that may be wrong and should be checked against data
可能是错误的事实,应该对数据进行检查

we dont know (我们用自动化,计算机等方式告诉我们是正确还是错误)
are questions we can answer by reporting, which we should baseline and automate
我们可以通过报告和结果回答的问题,我们应该基线和自动化

dont know

we know(我们直觉上知道是对还是错,需要量化,训练)
are intuition,which we should quantify and teach to improve effectiveness and efficiency
是直觉,我们应该量化和教导,以提高效率
we dont know (我们根本不知道对错,需要探索)
are exploration,which is where unfair advantage and interesting epiphanies live
是探索,这是不公平的优势和有趣的顿悟生活
WangWang20161213191509

2、 需求从哪里来思考框架
WangWang20161214173309

发现需求有:
经验直击型,本身有这个需求的经验,可以放心大胆的去做
探索型, 需要精益创业,通过数据分析调研等一步一步去探索,不确定性很大
2B领域, 面向企业的需求一般是比较稳定可靠的
B2C领域,具有年代性,不同人群,是一直变化的,80后,90后习惯是不一样的

3、创业的ABCDEF 判定
WangWang20161214173712