探討命名實體之前,要先釐清「實體Entity」在自然語言處理乃至於人工智慧的意義,所謂的Entity意思現實世界(人類視角所觀察到的世界)的某個存在(可以是抽象或者具體的東西),舉例來說”賈伯斯”是指涉Apple Group Inc.的創辦人, ”賈伯斯”這三個字元的組合是個真實存在過具體人物,我們就可以說”賈伯斯”這組符號是一個實體。

6220537174_c275ff36f6_b

Entity。而通常Entity之間可以產生關係,好比說「賈伯斯創辦了Apple Group Inc. 」

「創辦」就是賈伯斯這個Entity和Apple Group Inc. 這個Entity之間的關係,而這樣的關係可以用一階謂詞邏輯來表示,可以記做:創辦(賈伯斯, Apple Group Inc.),其中創辦(X,Y) X是施事者,Y是受事者。

命名實體識別技術(Named Entity Recognition)顧名思義就是讓電腦可以「辨識」出實體。這個技術是嘗試透過先將一個句子分詞以及做詞性標注,然後根據已有的實體資料庫來做判讀。對電腦來說,分詞後的結果雖然算是分離出意義的最小單位卻仍無法操作該意義單位,因為詞彙數據有稀疏的特性(意思是說,一個詞彙和另一個詞彙之間的關係不像整數一樣存在必然的關係,也沒有數學上的特性), 命名實體識別技術可以讓電腦將詞彙和實體連結在一起,就好像當我們看到賈伯斯,想到的並不是字面上的賈伯斯”而是背後隱含的”蘋果公司的創辦人,生於…死於…”。

最簡單的命名實體識別因該是時間以及數字,中等難度的是地名,機構名稱,最難的是人名以及普遍物件(除了可以被分類的名詞之外的所有抽象或具象概念) 。

命名實體識別技術在實作上可以使用機率統計的方式例如:CRF條件隨機場,或HMM隱式馬可夫鏈

廣告