演绎吧 关注:422,944贴子:94,408,701

【个人】从零开始尝试的演吧贴子分类

只看楼主收藏回复

大家好,这里是还欠着群友们一个西幻帖子的亡灵。
十一月过半了,我的实习也开始了……在单位里并不好意思明目张胆的摸设定,但作为一个并没有什么活干的划水实习生,无聊之际,就在思考有没有给演绎吧的贴子搞个分类的可能性。


1楼2018-11-16 00:38回复
    话不多说,说干就干。
    贴子分类首先要有数据,于是尝试性的爬了演吧前三页的贴子数据,效果如图所示。



    虽然再往后的也不是不能查找,但想来凉凉了两天以上(最后一个样本回复时间为11-14)的贴子已经失去了参考价值,所以先这样吧。


    2楼2018-11-16 00:41
    回复
      除开首页,演绎吧的另一个贴子数据集散地——想必就是登记楼了
      emm……在爬它之前,忽然发现登记楼的格式对数据保存很不友好,于是开始尝试正则表达式……
      ……啧,这我之前没搞过啊
      在一个多小时的翻资料和试错之后,姑且做出了这样一个版本:

      没有找到能够方便整洁的搞出【演绎】后内容的方法,存在倒肯定是存在的——
      但今晚摸了


      3楼2018-11-16 00:47
      回复
        ok,我又回来啦。
        登记楼的爬虫意外的挺花时间,尤其是在排版上……

        谁能告诉我为啥有人发帖ID的冒号用中标,有人用英标吗???


        4楼2018-11-16 12:03
        回复

          目前的效果如图所示(楼层标记什么的,等下再做吧)
          有些人在登记楼中用的是图片……那个大概需要单独爬下来,下午继续。


          5楼2018-11-16 12:06
          回复
            请问可以插楼吗「小声」


            IP属地:湖南来自Android客户端6楼2018-11-16 12:20
            收起回复
              辛苦啦,么么啾~


              IP属地:云南来自Android客户端7楼2018-11-16 13:52
              回复
                不明觉厉@天然出品 @方糖不加🍼


                来自iPhone客户端10楼2018-11-16 22:28
                回复
                  大家好,我又开始啦_(:з」∠)_
                  这次要做的是数据处理,为了给最终目的KNN做铺垫,先来做个LDA试试
                  效果如图所示:




                  11楼2018-11-17 00:57
                  回复
                    分析的内容,是演吧前十页中文本的聚类。


                    从LDA的可视化可以看出来,魔幻很火啊
                    还有现代。
                    右下角是故事跟期练
                    左上角是个人贴。


                    12楼2018-11-17 01:02
                    回复
                      是亡灵


                      IP属地:广东来自Android客户端13楼2018-11-17 02:55
                      回复
                        看不懂,这弄出来的意义?


                        IP属地:罗马尼亚14楼2018-11-17 04:52
                        收起回复


                          分类器做出来啦_(:з」∠)_
                          虽然只是简单基于文字读取的分类器

                          上图一个是本月登记楼全部贴子,另一个是带有魔幻TAG的全部登记楼贴子


                          15楼2018-11-17 14:47
                          回复
                            棒。


                            IP属地:广东来自Android客户端16楼2018-11-17 14:52
                            回复
                              总结一下成果:

                              【演绎吧前二十页贴子数据】
                              这个爬虫做的比较精细,把包括发帖ID、题目、链接、发帖日期、最后回复日期、楼层数和能读取的第一层文本内容都爬下来了。
                              除去首页的那几条广告,一共爬到了996条数据。


                              17楼2018-11-17 14:58
                              回复