[원 논문]
Do Language Models Understand Measurements?](https://arxiv.org/abs/2210.12694)
Abstract
[배경]
최근 pre-trained language models (PLMs)의 성공은 숫자를 이해하고 작업하는 능력에 대한 관심을 자극했다.
[문제]
그러나 측정에 대한 수치 추론은 그 중요성에도 불구하고 공식적으로 연구되지 않았다.
[논문의 목적]
본 논문은 아래와 같은 내용으로 구성되어있다.
- PLMs가 측정에 대한 추론에 필요한 능력이 부족하다는 것을 보여준다.
- measurement-rich 말뭉치에 대해 train된 언어 모델이, understanding measurements에 더 나은 성능을 보인다는 것을 발견했다.
- 본 논문은 숫자와 단위를 더 잘 구별하기 위한 간단한 임베딩 전략을 제안한다.
➡ 이는 probing tasks의 상당한 개선으로 이어진다.
1 Introduction
[기존 연구]
pre-trained language models (PLMs)의 성공은 상식을 이해하는 능력에 대한 더 많은 연구로 이어졌다.
이러한 맥락에서 숫자 또는 단어 형태의 숫자를 해석하고 작업하는 NLP 모델의 능력 연구,
수치, 스칼라 크기 비교, 수치 사실 및 수학 단어 문제에 대한 질문에 답하기 위한 NRoT 테스트 PLM에 대한 연구가 최근에 진행되었었다.
[기존 연구의 한계]
이러한 노력에도 불구하고 기존의 paper들은 숫자가 나타나는 형태에 대한 분석이 부족하다.
특히, 논문은 맥락에서 숫자가 measurement으로 나타나는 경우에만 초점을 맞추는 경향이 있다.
- 위 문제점의 예
대부분의 과학 기사에서 measurement은 맥락의 필수적인 부분이다.(적절한 의미를 담기 위해선)
아래 두 문장을 보자
두 문장은 측정단위(unit of measurement,UoM)인 g과 mg을 제외하고는 같은 단어이지만,
두 번째 문장은 UoM 때문에 incorrect하다.
[본 논문의 개선: MST]
- 본 논문에서는 PLMs의 measuring skill를 조사한다.
즉, measurement 시스템을 이해하고 measurement에 대한 수치 추론을 수행하는 능력을 조사한다. - 세 가지 측정 기술 테스트(measuring skill tests, MSTs)를 설계 한다.
➡ 얼마나 많은 measuring 기술을 습득할 수 있는지 연구한다.- UNIT CONVERSION(단위 변환): 측정 시스템에 대한 이해 필요
- REFERENCE RANGE DETECTION(기준 범위 검출): 생체 의학 실체의 정상 범위 이해 필요
- MEASUREMENT COMPARISON(측정 비교): 측정 시스템과 NRoT에 대한 지식을 결합할 수 있는 능력 필요
- Table 1 은 각 measuring skill tests의 예를 보여줌(MST 결과)
[실험 및 결과 요약]
- 한계 발견: 모델들이 measurements 목록에서 가장 큰(또는 가장 작은) 값을 찾고, 측정값을 다른 단위로 변환하는 데 어려움을 겪음
- 장점: 그 외의 다른 테스트에서는 잘 작동함
- 다른 PLM에 비해 BioBERT(Lee et al., 2020)는 UNIT CONVERSION 및 REFERENCE RANGE Detection에서 우수한 성능을 보임
➡ measurements가 풍부한 텍스트를 사용한 pre-trian이 모델의 measurements 시스템 이해 능력에 도움이 된다는 것을 의미한다.
마지막으로,
본 논문은 맥락에서 숫자, 단위 및 다른 단어를 구별하는 기술의 부족이 일부 MST에서 모델을 실패하게 한다고 추측한다.
➡ 이를 완화하기 위해 input 텍스트에서 숫자의 위치와 척도에 대한 정보를 모델에 제공하는 scale embedding을 도입한다.
우리는 scale embedding이 모든 PLM의 MST 성능을 크게 향상시킨다는 것을 보여준다.
2 Measuring Skill Test
이 섹션에서는 PLM이 measurements 시스템을 이해하고 measurements에 대해 수치 추론을 수행하는 능력을 신중하게 연구하기 위한 세 가지 MST를 설명한다.
(앞서 잠깐 설명했다)
- UNIT CONVERSION(단위 변환): 측정 시스템에 대한 이해 필요
- REFERENCE RANGE DETECTION(기준 범위 검출): 생체 의학 실체의 정상 범위 이해 필요
- MEASUREMENT COMPARISON(측정 비교): 측정 시스템과 NRoT에 대한 지식을 결합할 수 있는 능력 필요
2.1 Unit Conversion: 단위 변환
이 task를 수행하려면 model에서 두 measurements가 동일한 양을 나타내는지 여부를 결정해야 한다.
예를 들어 아래와 같은 문장이 있다고 해보자.
- 모델이 단위 변환을 올바르게 이해하는 경우: [MASK]를 _same_으로 추론한다.
- 모델이 단위 변환을 올바르게 이해하는 못하는 경우: [MASK]를 __same__으로 추론하지 못한다.
일반적으로, 단위(예: liter, meter)와 그 접두사(예: kilo, milli)를 결합하여 [&&10^{-3}, 10^3&&) 범위 내에서 measurement의 수치를 나타내는 것이 관례이다.
따라서 단위가 동일하더라도 single passage에 다양한 단위 접두사가 나타날 수 있다.
이를 처리하기 위해서는 measurement의 대한 복잡한 추론을 위해 UNIT CONVERSION이 필수적이다.
UNIT CONVERSION에 성공하기 위해서는 measurement 시스템에 대한 이해를 바탕으로 모델이 단위(unit)와 수치(numerical value)를 공동으로 처리할 것으로 기대한다.
2.2 Reference Range Detection: 기준 범위 감지
생물 의학 entity와 measurement가 주어지면, 이 task는 measurement가 기준 범위 내에 있는지 예측하는 모델을 필요로 한다.
단위는 생물의학적 entity에 의해 결정되기 때문에,
생물의학적 entity에 대한 지식은 measurement를 이해하는 데 중요한 역할을 한다.
예를 들어, 우리는 헤모글로빈 수준을 g/dL로 측정한다고 해보자.
PLM은 측정단위(unit of measurement, UoM)를 이해하는 것 외에도 주어진 생물 의학 entity에 대한 참조 범위가 무엇인지에 대한 충분한 단서를 제공하지 않기 때문에,
이 작업을 해결하기 위해 parameter에 내장된 도메인 지식에 의존해야 한다.
2.3 Measurement Comparison: 측정 비교
두 개의 two measurements (or a series of n measurements)이 주어지면,/span>
이들 사이의 올바른 관계를 예측하는 것이 주 목적이다.
우리는 잘 알려진 다른 NRoT 작업을 따라 synthetic dataset를 만들었다.
여기서 우리는 아래 세 가지 numerical reasoning tasks를 고려하여 모델이 숫자를 비교하도록 하였다.
- COMPARISON (Talmor et al., 2020)
- ARGMIN/MAX(Wallace et al., 2019)
- SORTING (Pal and Baral, 2021)
이 task의 각 측정에는 서로 다른 단위 접두사가 사용될 수 있다.
예를 들어, 두 개의 서로 다른 단위 “mg”과 “g”가 포함된 아래와 같은 샘플이 COMPARISON dataset에 나타난다.
이 task는 measurements에 대한 이해와 numerical reasoning skills을 결합하는 모델의 능력을 평가한다.