데이터 품질 평가 by umar shariff gani
출처: https://www.youtube.com/watch?v=_AA1JHjmg78 채널 umar shariff gani
데이터 품질 속성(또는 평가 척도)에 대해 간단한 예를 가지고 소개한 영상 자료
데이터 품질(Data Quality)
데이터 품질은 데이터를 사용한 결과(outcome)를 뒷받침할 만큼 해당 데이터가 “충분히 좋은지(goog enough)” 여부를 나타낸다.
좋지 않은 데이터 품질의 결과는 다음으로 이어진다.
- 시간과 돈 낭비
- 잘못된 보고 및 잘못된 비즈니스 결정
- 기회 상실
- 부정적인 회사 이미지
- 고객 만족도 저하
데이터 품질의 7가지 원칙(Seven Pillars Of Data Quality)
1. 완전성(Completeness)
누락되었거나 사용할 수 없는 데이터가 있는가? 선택적인(optional) 데이터 경우는 누락되어도 데이터가 완전할 수 있음
총 로우 수: 3
불완전한 로우 수: 1
완전성 퍼센티지: 67%
2. 준수성(Conformity)
표준화되지 않은 형식으로 저장되는 데이터가 있는가?
총 로우 수: 3
표준에 어긋나는 로우 수: 1
준수성 퍼센티지: 67%
3. 고유성(Uniqueness)
반복되는 데이터가 있는가?
총 로우 수: 4
중복 로우 수: 2
고유성 퍼센티지: 50%
4. 정확성(Accuracy)
잘못된 또는 유효 기간이 지난 데이터가 있는가?
총 로우 수: 6
부정확한 로우 수: 2 (우편번호가 불완전)
정확성 퍼센티지: 67%
5. 유효성(Validity)
유효하지 않은 데이터 레코드가 있는가?
총 로우 수: 3
유효하지 않은 로우 수: 3
유효성 퍼센티지: 0%
6. 일관성(Consistency)
상충되는 정보를 제공하는 데이터 값이 있는가?
총 로우 수: 3
일관성 없는 로우 수: 2 (동일 트랜잭션이 두 개의 벤더와 연관됨)
일관성 퍼센티지: 33%
7. 무결성(Integrity)
누락되었거나 유효하지 않거나 참조되지 않는 데이터(기본 키)가 있는가?
총 로우 수: 4
기본키 누락 로우 수: 1
무결성 퍼센티지: 75%
7개 원칙 중 4번 정확성과 5번 유효성은 딱 떨어지게 구분이 안되는 것 같아서 하나로 합치는 편이 덜 복잡할 것 같다는 생각