2014-11-22

自然語言處理論文研讀 1

1. Introduction

Introduction

語意分析涉及正反意見在文字語句中判定，因此必須使用多方視角看待問題與答案，這一點在之前，有人做過意見導向的資訊萃取、資訊摘要 (於文件、語句、片語)。語意分析通常分為三個階段，校準、辨識、分類所有已經讀取的文句。這篇論文探討文件分級 (document-level) 的分析，將會著重分析 特定類型的評論文件 。

第一個問題－極性分類 (polarity classification)，對於目標決策正極性 (贊同) 或者是負極性 (反對)，最近也在擴大到中性文件的分類上，雖然研究成果相當多且廣，極性分類仍然是自然語言處理系統中重大的挑戰。

接著將會著重於語言學上的極性分類。在語言學中，建立一個高校的極性分類透過：

high order n-grams
複合形容詞，例如 happy 被視為正，而 terrible 視為負面。
詞彙的相依關係
來自於中立文件中所描述的詞組

… 本文略

主要是極性分類，反映正反兩方兩種評論，為了增加精準度，其一種方法把單純闡述事實的評論去除、以及在中性評論用的用詞特別處理，接著對於形容詞與關聯名詞做統計，確保面向的評論對象是所需。

至於 n-gram 部分，有說明到 n 越大，將會造成模糊範圍增加，這樣一來其極性價值就會被削減，對於精準度是會掉的，只用 n = 2 好不好？他說他複合使用 n = 2 和 n = 3 將精準度提升，看到所謂顯著 2% 上升，似乎跟誤差無仿。

Morris' Blog

自然語言處理論文研讀 1

contents

Introduction