基于TFIDF的SEO系统底层设想

时间:13-05-17 栏目:SEO优化, SEO工具 作者:kyle 评论:7 点击: 17,215 次

来到北京之后,好久没发布过文章了。

美团这边的SEO团队很强大,过来快一个月了感觉过得挺快的。也学到不少新的东西。

最近搞的一套系统里面用到了一套基于TFIDF算法的东西,打算把流程设想一下,整理开发成一套系统化的工具。

首先要使用TFIDF得明白它需要的几个东西

1是要处理的文章,得分词之后,2是核心计算。

尝试了10万个简单的文章处理之后,发觉这块并不是想像中的那么简单。

光是计算TFIDF这块,就把8个G的内存全部占满了。

 

目前想到的方案大概是:

1、使用盘古分词,清理标点符号做为停用词进行过滤,生成切词之后的结果。

必要时可以加一些自定义词库到词库中备用,外开二元分词功能保证结果的准确性。

越大量的文章越要使用多线程进行处理。这块还要研究一下。

2、使用TFIDF进行词频计算,传入分词之后的文章,计算所有词,所在词在某个文章中的TF和IDF。越大量的数据越难以处理。

 

实现起来的难点在于:数据量超大处理越困难。计算越费时。

 

太晚了写个大概的思路,这段时间会用C#实现并把核心小部份代码和解决方案发点出来。这块在SEO中会特别有用,后面有时间会把用处列一些出来,希望各位支持成都SEO小五的朋友能略有收获。

成都SEO小五嚎2句: 本文是(成都SEO小五)辛苦弄出来的,转载成都SEO小五原创的请保留链接: 基于TFIDF的SEO系统底层设想,3Q

基于TFIDF的SEO系统底层设想:目前有7 条留言,牛逼吧!

  1. ❗ 小五去美团做SEO了?给力给力!!

    2013-05-17 5:47 pm [回复]
    • kyle:

      必须给力,来北京好一段时间了。

      2013-06-03 4:07 pm [回复]
  2. 地板
    lion:

    完全看不懂了 完蛋海子了 跟不上节奏啊

    2013-05-24 8:51 am [回复]
  3. 切词,最大的问题是制造出了很多重复页面,比如“天猫”和“小天猫”“天猫网购”这样的词,集合之后,会出现大量重复,切词,貌似用正则表达式,就可以完成切词啊,敦煌网,好像就这么干的!

    2013-05-28 3:55 pm [回复]
    • kyle:

      有空可以找我交流下,正则切词还没研究过。天猫,小天猫这样的词,页面重复,还要看你怎么来组织页面内容。应该可以规避一些重复问题。

      2013-06-03 4:09 pm [回复]
  4. 沙发
    Jackie:

    TF-IDF这块怎么实现,能细说下吗?

    2013-07-06 11:40 am [回复]
    • kyle:

      百度一下什么是TFIDF,实现很简单

      2013-07-09 10:04 am [回复]

来给哥评论评论


------====== 小五公告 ======------
成都SEO小五,专注成都搜索引擎优化。
小五善长站内外优化,C#、PHP开发,中英文SEO,Google中英文和百度优化技术。欢迎群内交流。伸手党请绕路,求资源的请绕开,求问题解答的请进群内交流。开放了一个QQ交流群:160750032。加入验证时请标注任何SEO相交字眼。友情链接直接Q我,收录正常,内容大部份原创、SEO或者程序开发、网络营销、线上推广等相关行业即可。

常用工具

赞助广告

来看过哥的人