제조업 현장 AI 도입 — 데이터 품질부터 바로잡아야 했던 이유

익명 처리 안내: 이 글에 등장하는 기업명·담당자·수치는 모두 변경 또는 생략되었습니다.

배경

2024년 초, 국내 중견 제조사 A사(직원 약 400명)는 “AI로 불량률을 줄이겠다”는 목표 아래 외부 솔루션 도입을 검토 중이었습니다. 경영진은 AI가 생산라인 이상을 즉시 감지해 줄 것이라고 기대했고, 저는 교육·컨설팅 역할로 프로젝트에 참여하게 되었습니다.

첫 미팅에서 발견한 문제

킥오프 미팅에서 저는 간단한 질문을 던졌습니다.

“현재 생산 데이터는 어디에 어떤 형태로 쌓이고 있나요?”

담당자 세 명이 서로 다른 답을 했습니다.

생산팀: “MES(제조실행시스템)에 있습니다.”
IT팀: “엑셀 파일로 공유 드라이브에 저장해요.”
품질팀: “우리 팀에서 따로 Access DB로 관리합니다.”

세 곳에 분산된 데이터, 세 가지 다른 형식, 정의가 제각각인 컬럼명. 이 상태로는 어떤 AI 모델도 제대로 작동할 수 없었습니다.

데이터 현황 진단

한 달간 데이터를 들여다본 결과:

누락률: 핵심 공정 지표 컬럼의 약 30%가 공백 또는 -로 표기
단위 불일치: 같은 온도 지표가 어떤 날은 °C, 어떤 날은 °F로 입력
컬럼 의미 불명확: val_1, val_2 같은 이름으로 저장된 수십 개 컬럼, 정의서 없음
중복 레코드: 교대 근무 교체 시간대에 동일 시간대 데이터가 두 번 기록

# 누락률 빠르게 확인하는 간단한 코드 예시
import pandas as pd

df = pd.read_excel("production_data.xlsx")
missing_ratio = df.isnull().mean().sort_values(ascending=False)
print(missing_ratio[missing_ratio > 0.1])  # 10% 이상 누락된 컬럼만

방향 전환: AI 전에 데이터 거버넌스부터

경영진 보고에서 저는 솔직하게 말했습니다.

“지금 AI를 붙이면 아무것도 작동하지 않습니다. 한 달 안에 데이터 기반부터 잡아야 합니다.”

처음에는 저항이 있었습니다. 이미 AI 벤더에 연락해 둔 상황이었으니까요. 하지만 시범적으로 현재 데이터로 간단한 분류 모델을 돌려보인 뒤 — 정확도 52%, 동전 던지기 수준 — 분위기가 바뀌었습니다.

데이터 정제 작업 (4주)

팀과 함께 진행한 주요 작업:

데이터 사전 작성 — 모든 컬럼에 한글 정의, 단위, 허용 범위 명시
소스 통합 — MES → 중앙 DB 단방향 파이프라인 구축
결측치 정책 수립 — 어떤 결측은 이전값 채움, 어떤 결측은 제거할지 규칙화
이상값 탐지 기준 정립 — 공정 엔지니어와 협의해 물리적으로 불가능한 범위 정의

결과

4주 후 정제된 데이터로 같은 모델을 재훈련하자 정확도가 **52% → 81%**로 올랐습니다.

AI가 갑자기 똑똑해진 것이 아닙니다. 데이터가 비로소 현실을 반영하기 시작한 것입니다.

이 사례에서 얻은 교훈

AI 도입 로드맵의 첫 단계는 데이터 감사(audit)다. 도구보다 데이터 구조가 먼저입니다.
데이터 정의서(사전)는 기술 부채가 아니라 선행 투자다. 나중에 작성하면 비용이 10배가 됩니다.
현장 실무자를 데이터 정의에 참여시켜야 한다. IT팀만으로는 컬럼 하나의 의미를 알 수 없습니다.

비슷한 고민을 겪고 계신다면, 코칭 페이지를 통해 연락 주세요.