월레스와 그로밋: 코딩의 날

openai/gsm8k 데이터셋 설명 본문

Project/Personal(or Team)

openai/gsm8k 데이터셋 설명

구운 감자 2025. 3. 22. 21:07

(Hugging Face 사이트의 openai/gsm8k 데이터셋 설명문을 ChatGPT로 번역 및 정리했음)

 

데이터셋 요약

 

GSM8K(Grade School Math 8K)은 언어적으로 다양하고 고품질인 초등학교 수준의 수학 서술형 문제 8,500개로 구성된 데이터셋입니다.
이 데이터셋은 기초적인 수학 문제에 대한 질의응답(question answering) 작업을 지원하기 위해 만들어졌으며, **다단계 추론(multi-step reasoning)**을 요구합니다.

  • 문제를 풀기 위해서는 2단계에서 8단계 사이의 계산 과정이 필요합니다.
  • 정답을 구하려면 주로 기초 산술 연산(덧셈 +, 뺄셈 −, 곱셈 ×, 나눗셈 ÷)을 순차적으로 수행해야 합니다.
  • 논문에서 언급하길: "문제는 초기 대수 수준을 넘는 개념을 요구하지 않으며, 대부분은 변수 정의 없이도 풀 수 있다." 즉, 똑똑한 중학생이라면 모두 풀 수 있는 난이도입니다.
  • 정답은 수학 공식이 아닌 자연어로 제시됩니다. 논문에서는 이렇게 설명합니다:
  • "우리는 이 형식이 일반적으로 가장 유용한 데이터 형식이라고 믿으며, 이는 대형 언어 모델(LLM)의 내부 추론 과정(internal monologue)에 대해 통찰을 줄 것이라 기대합니다."
지원 작업 및 리더보드

 

이 데이터셋은 일반적으로 언어 모델의 논리력과 수리력을 평가하는 데 사용됩니다.
LLM 리더보드 등 다양한 벤치마크에서도 활용되고 있습니다.

사용 언어

 

  • 영어
  • BCP-47 언어 코드: en
데이터셋 구조

 

데이터 예시

{
  "question": "Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?",
  "answer": "Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nNatalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72"
}
  • Main 구성
{
  "question": "Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?",
  "answer": "How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nHow many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72"
}
  • Socratic 구성

 

  • Main 구성은 질문과 정답만 있음.
  • Socratic 구성은 질문 → 하위 질문 → 답변 형태로, 소크라테스식 추론 질문이 포함되어 있음.
데이터 필드

 

  • question: 초등학교 수준의 수학 문제 문장
  • answer: 자연어 기반의 전체 풀이 과정 (계산 주석 포함), 마지막에 정답 숫자 포함
데이터 분할

 

구성 학습(train) 검증(validation)
main 7473개 1319개
socratic 7473개 1319개
원천 데이터

 

초기 수집 및 정제

  • 논문 부록 A에 따르면:
    • 초기에는 Upwork 프리랜서를 통해 약 1,000개의 문제와 자연어 풀이를 수집함
    • 이후 Surge AI(NLP 데이터 라벨링 플랫폼)와 협력하여 전체 데이터셋 확장
    • 수집 완료 후, 작성자 본인이 아닌 다른 작업자에게 모든 문제를 다시 풀도록 함
    • 최종 답이 원래 답과 일치하는지 검토하고, 불일치한 경우는 수정하거나 제거
    • 추가 검토 과정에서 약 1.7% 정도의 문제에서 여전히 불일치 또는 오류가 발견됨
    • 이는 명백한 오류나 애매한 표현이 포함된 문제의 비율로 추정됨
    • 다만, 더 많은 문제에 미묘한 오류가 있을 가능성은 존재함

References

1. openai/gsm8k [https://huggingface.co/datasets/openai/gsm8k]