banner

블로그

Jun 25, 2023

AI가 규칙 위반을 잘못 판단하는 모델: 인간 대 기계 결정

요약: 연구원들은 AI 모델이 규칙 위반과 관련된 인간의 결정을 정확하게 복제하지 못하고 더 가혹한 판단을 내리는 경향이 있다는 사실을 발견했습니다. 이는 해당 모델이 학습되는 데이터 유형에 기인합니다. 규범적이라기보다는 기술적으로 라벨이 붙는 경우가 많으며, 이로 인해 규칙 위반에 대한 해석이 달라집니다.

이러한 불일치는 더 엄격한 사법 판결과 같은 심각한 실제 결과를 초래할 수 있습니다. 따라서 연구원들은 보다 정확한 모델을 위해 데이터세트 투명성을 개선하고 교육 컨텍스트를 배포 컨텍스트와 일치시킬 것을 제안합니다.

중요한 사실:

원천:와 함께

공정성을 개선하거나 백로그를 줄이기 위한 노력의 일환으로 기계 학습 모델은 소셜 미디어 게시물이 유해한 콘텐츠 정책을 위반하는지 여부를 결정하는 등 인간의 의사 결정을 모방하도록 설계되기도 합니다.

그러나 MIT와 다른 곳의 연구자들은 이러한 모델이 규칙 위반에 대한 인간의 결정을 복제하지 않는 경우가 많다는 사실을 발견했습니다. 모델이 올바른 데이터로 훈련되지 않으면 인간보다 더 가혹한 판단을 내릴 가능성이 높습니다.

이 경우 "올바른" 데이터는 항목이 특정 규칙을 위반하는지 여부를 명시적으로 질문받은 사람이 라벨을 붙인 데이터입니다. 훈련에는 작업을 학습할 수 있도록 이 "표준 데이터"의 수백만 가지 예를 기계 학습 모델에 보여주는 것이 포함됩니다.

그러나 기계 학습 모델을 훈련하는 데 사용되는 데이터에는 일반적으로 설명적인 라벨이 지정됩니다. 즉, 인간은 사진에 튀긴 음식이 있는지와 같은 사실적 특징을 식별해야 합니다.

식사가 튀긴 음식을 금지하는 학교 정책을 위반하는지 여부와 같이 규칙 위반을 판단하는 모델을 훈련하는 데 "설명 데이터"를 사용하는 경우 모델은 규칙 위반을 과도하게 예측하는 경향이 있습니다.

이러한 정확도 저하는 실제 세계에서 심각한 영향을 미칠 수 있습니다. 예를 들어, 개인이 재범할 가능성이 있는지 여부를 결정하기 위해 설명적 모델을 사용하는 경우 연구원의 연구 결과에 따르면 이 모델은 인간보다 더 엄격한 판단을 내려 더 높은 보석금이나 더 긴 형량을 선고할 수 있습니다.

"대부분의 인공지능/머신러닝 연구자들은 데이터와 라벨에 대한 인간의 판단이 편향되어 있다고 가정하지만, 이 결과는 더 나쁜 것을 말하고 있습니다.

"이러한 모델은 훈련 중인 데이터에 결함이 있기 때문에 이미 편향된 인간 판단을 재현하지도 못합니다. 인간은 이러한 특징이 판단에 사용될 것이라는 것을 안다면 이미지와 텍스트의 특징에 다르게 라벨을 붙일 것입니다.

CSAIL(컴퓨터 과학 및 인공 지능 연구소)의 Healthy ML 그룹 책임자이자 조교수인 Marzyeh Ghassemi는 "이것은 인간 프로세스의 기계 학습 시스템에 큰 영향을 미칩니다."라고 말합니다.

Ghassemi는 오늘 Science Advances에 발표된 이러한 발견을 자세히 설명하는 새로운 논문의 수석 저자입니다. 논문에 그녀와 함께 전기 공학 및 컴퓨터 과학 대학원생인 수석 저자 Aparna Balagopalan이 있습니다. 토론토 대학교 대학원생 David Madras; 현재 ML Estimation의 공동 창립자인 전 대학원생 David H. Yang; MIT 조교수 Dylan Hadfield-Menell; Gillian K. Hadfield, Schwartz Reisman 기술 및 사회 의장이자 토론토 대학교 법학 교수.

라벨링 불일치

이 연구는 기계 학습 모델이 예측을 정당화할 수 있는 방법을 탐구하는 다른 프로젝트에서 시작되었습니다. 연구진은 해당 연구를 위한 데이터를 수집하면서 동일한 데이터에 대해 설명적 또는 규범적 라벨을 제공하라는 요청을 받으면 인간이 때때로 다른 답변을 제공한다는 사실을 발견했습니다.

설명적인 라벨을 수집하기 위해 연구자들은 라벨러에게 사실적 특징을 식별하도록 요청합니다. 이 텍스트에 외설적인 언어가 포함되어 있습니까? 규범적인 라벨을 수집하기 위해 연구자들은 라벨러에게 규칙을 제공하고 데이터가 해당 규칙을 위반하는지 묻습니다. 이 텍스트는 플랫폼의 명시적인 언어 정책을 위반합니까?

공유하다