다중회귀분석 관련질문드립니다. N
No.1098811
안녕하세요
한국건설기술연구원 지하공간안전연구센터에서 근무중인 박병관입니다.
통계학비전공자이며, 연구 수행과정에서 다중회귀분석 관련 문의사항이 있어 아래와 같이 정리해서 문의드립니다.
1. 활용 목적:
실제 작동된 기계에서 측정 및 수집된 데이터를 활용하여 가상의 기계 작동 시뮬레이션에 적용할 수식을 산출
2. 수집 데이터 수:
약 29만개(연속데이터, 실험데이터가 아닌 기계데이터)
3. 수행내용:
- 1개의 출력변수값을 산정을 위해 5개의 입력변수(기계 조종 관련 변수)를 활용하여 다중회귀분석 수행
- 다중회귀분석 수행결과
약 29만개 데이터 모두 사용시, 결정계수 0.26을 갖는 회귀식을 도출.
약 24만개 데이터 만 사용시, 결정계수 0.53을 갖는 회귀식을 도출.
(표준화된 잔차 절대값 2.0이상을 제거하면서 반복적으로 회귀분석 수행)
4. 질문내용
1. 특정 이상값을 계속 삭제하여 결정계수가 높은 회귀식을 산출해도 되는지 여부.
이게 통계학적으로 맞는 방법인지... 엄밀하게 말하면 데이터를 만드는 것 같은 생각이 듭니다.
하지만 저희가 분석에 시험데이터가 아닌 기계데이터를 활용하고, 데이터 수 또한 매우 많은데..
저희 활용 목적을 고려하면 위와 같은 방법을 적용해도 무방할 것 같은 생각도 듭니다.
2. 다른 좋은 방법이 있는지?
문헌을 찾아보니 다양한 다중회귀분석 방법이 있는 것 같습니다.
통계비전공자이다보니 SPSS를 활용하여 기본적인 다중회귀분석방법을 우선 사용해봤는데,
저희 수행 목적에 맞는 다중회귀분석방법을 추천해 주실수 있으신지?
아니면 다중회귀분석기법 말고 더 좋은 다른 분석기법이 있다면 제안해 주실수 있는지 알고 싶습니다.
이상입니다.
감사합니다.
이전글
다음글