diff --git a/README.md b/README.md new file mode 100644 index 0000000..491623f --- /dev/null +++ b/README.md @@ -0,0 +1,31 @@ +# 仿 PTT 鄉民問答 Bot + +國立暨南國際大學 1102 自然語言處理 Final Project + +![](docs/bot1.png) + +- 組員 + - 108321030 劉承熙 + - 108321032 王廷郡 + +## 動機 +- 因為平常喜歡看 PTT 的鄉民梗,雖然有時候 PTT 鄉民發言時常政治不正確,但是有些用語很有趣而且很特別,算是一種次文化 + +## 資料來源 +- 參考 [zake7749/Gossiping-Chinese-Corpus](https://github.com/zake7749/Gossiping-Chinese-Corpus) repo 自行撰寫爬蟲程式,爬取八卦板中分類為 ”[問卦]” 的「標題」及「推文」, 2022-02-01 ~ 2022-05-28 共計 108900 篇文章 +- 參考 Gossiping-Chinese-Corpus repo 以推文中詞出現的數量進行各推文的分數加權,取最高者當作 Answer +- 資料範例如下圖 + - ![](docs/data.png) + +## 觀察 - 疫情時代下 PTT 八卦板常用詞 +![](docs/pttwords.png) + +## Model +- 使用 PyTorch 框架,使用 LSTM layer 實做基本 Seq2seq model + - ![](docs/model.png) + +## 實做成果 +- 許多對話 model 仍然無法正常回覆,以下為經挑選過的結果 +![](docs/bot2.png) +![](docs/bot3.png) +![](docs/bot4.png) \ No newline at end of file diff --git a/docs/bot1.png b/docs/bot1.png new file mode 100644 index 0000000..c10312d Binary files /dev/null and b/docs/bot1.png differ diff --git a/docs/bot2.png b/docs/bot2.png new file mode 100644 index 0000000..f182f7e Binary files /dev/null and b/docs/bot2.png differ diff --git a/docs/bot3.png b/docs/bot3.png new file mode 100644 index 0000000..fb3540b Binary files /dev/null and b/docs/bot3.png differ diff --git a/docs/bot4.png b/docs/bot4.png new file mode 100644 index 0000000..95eee54 Binary files /dev/null and b/docs/bot4.png differ diff --git a/docs/data.png b/docs/data.png new file mode 100644 index 0000000..e69cb92 Binary files /dev/null and b/docs/data.png differ diff --git a/docs/model.png b/docs/model.png new file mode 100644 index 0000000..be3ddd1 Binary files /dev/null and b/docs/model.png differ diff --git a/docs/pttwords.png b/docs/pttwords.png new file mode 100644 index 0000000..d3565fb Binary files /dev/null and b/docs/pttwords.png differ