수동으로 데이터 입력
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
값을 입력하여 작은 데이터 집합 입력 및 편집 사용
범주: 데이터 변환/조작
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)에서 데이터 수동 입력 모듈을 사용하여 값을 입력하여 작은 데이터 세트를 만드는 방법을 설명합니다. 데이터 세트에는 여러 개의 열이 있을 수 있습니다.
이 모듈은 다음과 같은 시나리오에서 유용할 수 있습니다.
수동으로 데이터 입력을 사용하는 방법
실험에 데이터 수동 입력 모듈을 추가합니다. 이 모듈은 Machine Learning Studio(클래식)의 데이터 입력 및 출력 범주에서 찾을 수 있습니다.
DataFormat에서 다음 옵션 중 하나를 선택합니다. 이 옵션에 따라 사용자가 제공한 데이터의 구문 분석 방법이 결정됩니다. 형식마다 요구 사항이 크게 다르므로 관련 항목을 참조해야 합니다.
ARFF. Weka에서 사용하는 특성 관계 파일 형식입니다. 자세한 내용은 ARFF로 변환을 참조하세요.
CSV. 쉼표로 구분된 값 형식입니다. 자세한 내용은 CSV로 변환을 참조하세요.
SVMLight. Vowpal Wabbit 및 기타 기계 학습 프레임워크에서 사용하는 형식입니다. 자세한 내용은 SVMLight로 변환을 참조하세요.
TSV. 탭으로 구분된 값 형식입니다. 자세한 내용은 TSV로 변환을 참조하세요.
형식을 선택하고 형식 사양을 충족하는 데이터를 제공하지 않으면 런타임 오류가 발생합니다.
데이터 텍스트 상자 안을 클릭하여 데이터 입력을 시작합니다. 다음 형식에는 특별한 주의가 필요합니다.
CSV: 여러 열을 만들려면 쉼표로 구분된 텍스트를 붙여넣거나 필드 간에 쉼표로 쉼표로 여러 열을 입력합니다.
Hasheader 옵션을 선택한 경우 값의 첫 행을 열 머리글로 사용할 수 있습니다.
이 옵션을 선택 취소하면 열 이름, Col1, Col2 등이 사용됩니다. 나중에 메타데이터 편집을 사용하여 열 이름을 추가하거나 변경할 수 있습니다.
TSV: 여러 열을 만들려면 탭으로 구분된 텍스트를 붙여넣거나 필드 간 탭을 사용하여 여러 열을 입력합니다.
Hasheader 옵션을 선택한 경우 값의 첫 행을 열 머리글로 사용할 수 있습니다.
이 옵션을 선택 취소하면 열 이름, Col1, Col2 등이 사용됩니다. 나중에 메타데이터 편집을 사용하여 열 이름을 추가하거나 변경할 수 있습니다.
ARFF: 기존 ARFF 형식 파일을 붙여넣습니다. 값을 직접 입력하는 경우 데이터 시작 부분에 선택적 헤더 및 필수 특성 필드를 추가해야 합니다.
예를 들어 다음 헤더 및 특성 행을 간단한 목록에 추가할 수 있습니다. 열 머리글은
SampleText
입니다.% Title: SampleText.ARFF % Source: Enter Data module @ATTRIBUTE SampleText STRING @DATA \<type first data row here>
SVMLight: SVMLight 형식을 사용하여 값을 입력하거나 붙여넣습니다.
예를 들어 다음 샘플은 헌혈 데이터 세트의 첫 번째 몇 줄을 SVMight 형식으로 나타냅니다.
# features are [Recency], [Frequency], [Monetary], [Time] 1 1:2 2:50 3:12500 4:98 1 1:0 2:13 3:3250 4:28
수동으로 데이터 입력 모듈을 실행하면 다음과 같이 해당 줄이 열 및 인덱스 값의 데이터 세트로 변환됩니다.
Col1 Col2 Col3 Col4 레이블 0.00016 0.004 0.999961 0.00784 1 0 0.004 0.999955 0.008615 1
각 행 뒤의 Enter 키를 눌러 새 줄을 시작합니다.
마지막 행 뒤 Enter 키를 눌러야 합니다.
Enter 키를 여러 번 눌러 빈 후행 행을 여러 번 추가하면 마지막 빈 행이 제거되지만 다른 빈 행은 누락된 값으로 처리됩니다.
누락 값이 있는 행을 만드는 경우 나중에 언제든지 필터링할 수 있습니다.
모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택하여 데이터를 구문 분석하고 데이터 세트로 작업 영역에 로드합니다.
데이터 세트를 보려면 출력 포트를 클릭하고 시각화를 선택합니다.
예
기계 학습에서 이 모듈을 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.
- 데이터 다운로드 샘플: UCI Machine Learning 리포지토리에서 데이터를 가져오고 수동으로 데이터 입력을 사용하여 열 이름을 만듭니다. 입력된 행을 데이터 집합과 병합하는 데 사용할 수 있는 샘플 R 코드가 제공됩니다.
기술 정보
이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.
저장된 형식에 관계없이 입력한 데이터는 실험에 사용할 데이터 세트(데이터 테이블) 형식으로 암시적으로 변환됩니다. 그러나 데이터 세트로 저장 옵션을 명시적으로 선택하지 않는 한 데이터는 저장된 데이터 세트로 유지되지 않습니다.
데이터 세트로 수동으로 데이터 입력 에 데이터를 저장하지 않으면 세션을 종료하면 작업 영역 캐시에서 제거됩니다. 그러나 실험을 다시 실행하여 데이터를 사용할 수 있도록 할 수 있습니다.
Enter Data Manually의 데이터를 다른 데이터 세트와 결합하는 경우 결합된 데이터 세트에는 이름이 같은 두 개의 열이 있을 수 없습니다. 열 이름이 중복되면 오른쪽 데이터 세트의 열에 숫자 접미사가 추가되어 열 이름을 고유하게 만듭니다.
예를 들어 TestData 열을 포함하는 수동으로 데이터 입력의 두 인스턴스가 있다고 가정하고 열 추가 모듈을 사용하여 병합합니다. 수동으로 데이터 입력의 왼쪽 인스턴스에 있는 열은 TestData로 유지되고, Enter Data Manually의 오른쪽 인스턴스에 있는 열의 이름이 TestData(2)로 바뀝니다.