본문 바로가기

Papers/NLP

[NLP 근본 논문 리뷰 #2] Distant Supervision for Relation Extraction without Labeled Data (ACL 2009)

Written by Mike Mintz et al.

Paper Link: https://aclanthology.org/P09-1113.pdf

Summary

  • Motivation
    • To use Freebase to give us a training set of relations and entity pairs that participate in those relations
  • Contribution
    • Avoid overfitting and domain-dependence by using large-scale knowledge base
  • Limitation
    • Wrongly labeled relations
    • False negatives
    • Assumption on large data (knowledge base such as Freebase)

Introduction

4가지 RE 방법론

1. Supervised RE

Methods: Corpus의 문장에서 entities가 존재하면 그들 간의 relation을 hand-labeling 한다.

Limitation

  1. labeling cost
  2. bias to domain

2. Unsupervised RE

Methods: 많은 양의 text에서 entities 사이의 단어를 추출하고 clustering하여 relation name으로 만든다.

Limitation

  1. 많은 양의 text와 relation이 필요하다.
  2. 특정 knowledge base에서 필요로 하는relation name에 맵핑하기 어렵다.

3. Bootstrapping learning

Methods: 적은 수의 패턴을 반복적으로 bootstrapping 한다.

Limitation

  1. low precision (high false positives)
  2. semantic drift: a form of language change regarding the evolution of word usage — usually to the point that the modern meaning is radically different from the original usage
    1. cf. https://en.wikipedia.org/wiki/Semantic_change

4. Distant supervision

Methods

  • Large semantic database를 사용해 entity pair에 대한 supervision을 준다.
  • Unsupervised 방법론과 달리 classifier의 예측이 database의 정해진 relation name을 사용할 수 있다.

Advantages

Distant supervision은 다음 두 가지 문제를 방지한다.

  1. over-fitting
  2. domain-dependence

Methods

Architecture

Distant supervision의 아이디어는 Freebase에서 relation과 entity pair로 구성된 training set을 추출하는 것이다.

Training time

  1. Named entity tagger를 이용해 Wikipedia 문장에서 모든 entity를 찾아 person, organization, location으로 label을 달아준다.
  2. 만약 한 문장에서 2개의 entity를 발견하여 이들 간의 관계가 Freebase relations에 포함된다면, feature를 추출한다. 이 추출된 feature vector를 relation의 feature vector에 더해준다.
  3. 다른 문장에서 발견된 같은 tuple들, 즉 (relation, entity1, entity2) 구성이 같은 tuple들의 features가 더해진다.
    • noisy feature를 보완하고 더 다양한 context를 가지는 feature vector를 만들 것이다.

Test time

  1. 1번 스텝은 동일하다.
  2. 한 문장에서 발견된 entity pair는 relation을 가진다고 가정한다. 그 entity pair의 feature vector에 문장에서 추출된 features를 더해준다.
  3. Regression classifier가 entity pair가 발견된 모든 문장에서의 feature에 대해 relation name을 에측한다.

Advantages

  • 같은 relation의 여러 번 다르게 언급된(mentions) 정보들을 합칠 수 있다.
    • film-director relation에 대한 예제를 살펴보자.
      • A: [스티븐 스필버그]의 영화 "[라이언 일병 구하기]"는 실화에 기반했다.
      • B: 앨리슨은 아카데미 수상작이자 [스티븐 스필버그]가 연출한 "[라이언 일병 구하기]"를 공동 제작했다.
      • B에는 없는 정보인 "라이언 일병 구하기"가 영화라는 정보가 A에서 추출될 수 있다.

Features

  1. Lexical features
    1. The sequence of words between the two entities
    2. The part-of-speech tags of these words
    3. A flag indicating which entity came first in the sentence
    4. A window of k words to the left of Entity 1 and their part-of-speech tags
    5. A window of k words to the right of Entity 2 and their part-of-speech tags
  2. Syntactic features
    1. A dependency path between the two entities
    2. For each entity, one ‘window’ node that is not part of the dependency path
    3. Window node
      • 두 entity와 연결은 되어 있지만 dependency path의 일부는 아닌 노드이다.
  3. Named entity tag features
    1. Tagger를 이용해 각 단어에 label을 붙인다.
    2. Labels: {person, location, organization, miscellaneous, none}
  4. Conjunction
    1. 각각 feature는 앞서 말한 attributes에다가 named entity tags를 더한 conjunction으로 이뤄져 있다.
    2. Low recall, high precision feature를 만들어준다.
      1. Positive로 예측 → 실제론 Negative인 경우보다 (False positive)
      2. Negative로 예측 → 실제론 Positivie인 경우(False negative)가 더 많다.
      3. Large dataset을 사용하기 때문에 같은 relation의 tuple이 자주 등장한다.

Results

  1. Held-out evaluation (PR curve)

  • False positive에 고통받고 있지만, oracle recall이 최대치일 때, Syntax와 Lexical을 둘 다 사용하는 것이 좋은 precision을 보였다.

2. Human evaluation

  • Syntactic만 사용하거나 Syntactic + Lexical을 사용하는 경우가 성능이 좋았다.

3. High-weight features for several relations

  • Classifier
    • Input: an entity pair and a feature vector
    • Output: a relation name and a confidence score based on the probability of the entity pair belonging to that relation
  • Once all of the entity pairs discovered during testing have been classified
    • They can be ranked by confidence score and used to generate a list of the n most likely new relation instances

Discussion & Conclusion

They suggest that syntactic features are indeed useful in distantly supervised information extraction where

  • the individual patterns are particularly ambiguous
  • they are nearby in the dependency structure but distant in terms of words.

Q&A

  1. How can we reduce the risk of false negatives and wrong label problems?
  2. How does distant supervision benefit from syntactic features (rather than lexical features alone)?
  3. Is knowledge base always needed for distant supervision?
  4. [5 Features] " Each feature describes how two entities are related in a sentence, using either syntactic or non-syntactic information. -> where is non-syntactic information?
  5. [figure2] What is oracle recall? - It's hard to understand what the graph shows.
반응형