从内容/用户画像到如何做算法研发

  • 时间:
  • 浏览:1

中午和一前同事一同用餐,发现还是有越多碰撞点的。交流了越多正在做的事情,对方也提供了非常多的思想值得买车人很好的思考。先是和他聊了下这些人现在做内容标签的进展,我我虽然越多 在做内容画像。这些人一般全是在谈用户画像,我我虽然内容也是要画像的。

我有过后我虽然,引用算法工程师最流行的哪几个多 话,越多 tricky。 中文他他不知道如可翻译更要花费,越多过后是还也能悟性和对事物本质的了解,也能了解哪几个多 算法的,绝对全是靠哪几个公式就能搞掂的。

比如,算法工程师写了哪几个多 巨牛逼的算法原型,而且他还也能先给工程师讲懂这些算法,工程师看买车人水平,先不说还还也能将算法实现,实现所花的时间,以及否有真的有时间和精力去帮我我虽然现,实现的是全是有疑问越多 哪几个多 很大的疑问了。来回一折腾,哪几个多 人完会比较累。当然,我前面也说了,不可能 全是Google工程师级别的,事情自然能变慢。不可能 这些人都使用spark 平台,这些交流成本小非常多。研发工程师倘若将算法工程师不可能 写好的spark代码做些调整优化,估计就还还也能直接上线看效果了。越多我做的更极端这些,要求算法工程师用到的算法都还也能是Spark Mlib现有的,不可能 有能力买车人实现的,非要单机去Lib跑跑就行。

我过后说,内容和用户是现在互联网企业核心的哪几个多 东西,用户的行为则将内容和用户连接了起来。越多人一上来,撸起袖子就现在现在现在开始 做用户画像,上边会发现,不可能 如此 对内容做好分析,我我虽然用户画像这些东西也会做不好。不可能 用户的行为是以内容为承载的,非要把内容画像做好了,也能进一步提升用户画像的品质。而要做内容画像,我我虽然有两件事情要做的:

协同算法是这些人应用的比较广泛的哪几个多 算法。而且我我虽然协同不应该否有哪几个多 算法,越多 有一种 模式。这些人常见的越多模型,最后全是协同模式。举个例子来说,是全是个A1用户推荐文章B1,这些人不可能 是如此 做的:

而且越多算法做了越多很粗暴的假设,这些假设会意味 算法所处这些固有的疑问,不可能 你不了解其内部的有有哪些假设,你还还也能以为有有哪些是他的哪几个多 特征,我我虽然是哪几个多 缺点。比如Gini Importance,不可能 你不去了解的内部思想,你在理解数据时,就会造成误解,意味 错误的认为先被选中的特征是有点要的,而其余的特征是不重要的,但实际上有有哪些特征对响应变量的作用我我虽然非常接近的。

哪几个多 场景要外理的哪几个多 疑问往往全是如此 直观明显的,就如同这些人上边提到的构建内容画像的疑问,就得到了哪几个多 子疑问,每个子疑问又还也能划分成哪几个步骤,每个步骤不可能 对应哪几个多 不可能 多个算法疑问。

另外在如可做的这件事情上,他也谈及了买车人的看法,越多 要求以Spark的Mlib为载体,尽量每每个人共用哪几个多 算法平台。我诧异的说,竟然和我的想法不谋而合。我知道你原先做的好处是这些人信息共享会变慢,同哪几个多 平台也更好维护。我进一步补充,我我虽然不可能 每买车人全是Google工程师的水准,我我虽然倒越多 用限制在哪几个多 平台上,但事实上不可能 每买车人都坚持买车人擅长的土土妙招,我我虽然隐形成本非常高。

这些人先谈谈,如可知道有哪些场景,使用有哪些算法。首先这些人要知道具体场景能对应到哪几个多 有哪些类别的疑问上。是哪几个多 聚类的疑问?哪几个多 分类的疑问?还是哪几个多 回归类疑问?定义了类别过后再去找对应的算法。比如聚类还还也能使用KMeans,LDA,K近邻等,分类还还也能贝叶斯,SVM等。然而你还还也能发现,我我虽然还是太简单了。

而且就算原先,也还是是远远过低。不可能 这些人即使做到了具体知道该使用哪个算法,而且一用,发现效果删改全是那回事。这些过后这些人要花费非要解两方面:

他还问我知道你,如可才算对算法有了真正的理解。这些疑问真的把我问住了,我过后肯定会说,知道有哪些场景使用有哪些样的算法,就足够了。而且现在真的静下心来做,发现全是如此 一回事。

但事实上这套算法,用的越多 协同。如可的?本质上还是相近的用户做的挑选互相推荐。

做公式推导到底重不重要呢。这些人常常我虽然有有哪些对算法里的公式能做推导的人,很牛,能做到这点,自然值得鼓励和钦佩,而且我我虽然算法和还还也能推导公式是两码事。我想把算法里的每个公式拎出来,找个数学系的人进行推导,它不可能 比较轻松的搞掂。而且这些人说他懂得这些算了么?他连算法是有哪些都他不知道,对么? 越多从工程转过来的人,一定不必说为此我虽然有有哪些障碍,我我虽然这些人还还也能忽略公式的有一种 推导过程。