以 PyTorch 實做基本 Seq2seq 仿 PTT 鄉民問答 Telegram Bot
| Bot | ||
| Crawler | ||
| docs | ||
| .gitignore | ||
| README.md | ||
| 仿 PTT 鄉民問答 Bot.pdf | ||
仿 PTT 鄉民問答 Bot
國立暨南國際大學 1102 自然語言處理 Final Project
- 組員
- 108321030 劉承熙
- 108321032 王廷郡
動機
- 因為平常喜歡看 PTT 的鄉民梗,雖然有時候 PTT 鄉民發言時常政治不正確,但是有些用語很有趣而且很特別,算是一種次文化
資料來源
- 參考 zake7749/Gossiping-Chinese-Corpus repo 自行撰寫爬蟲程式,爬取八卦板中分類為 ”[問卦]” 的「標題」及「推文」, 2022-02-01 ~ 2022-05-28 共計 108900 篇文章
- 參考 Gossiping-Chinese-Corpus repo 以推文中詞出現的數量進行各推文的分數加權,取最高者當作 Answer
- 資料範例如下圖
觀察 - 疫情時代下 PTT 八卦板常用詞
Model
實做成果
感謝
- 感謝 @hsuanchia 及 @jiazheng0609 兩位學長對於實驗提出建議及想法
- 感謝 zake7749/Gossiping-Chinese-Corpus 在 Kaggle 提供有趣的資料集和開源程式碼






