กําหนดค่าคลังข้อมูลในกิจกรรมการคัดลอก
บทความนี้สรุปวิธีการใช้กิจกรรมการคัดลอกในไปป์ไลน์ข้อมูลเพื่อคัดลอกข้อมูลจากและไปยังคลังข้อมูล
การกําหนดค่าที่ได้รับการสนับสนุน
สําหรับการกําหนดค่าของแต่ละแท็บภายใต้กิจกรรมการคัดลอก ให้ไปที่ส่วนต่อไปนี้ตามลําดับ
ทั่วไป
สําหรับการกําหนดค่าแท็บ ทั่วไป ให้ไปที่ ทั่วไป
แหล่งที่มา
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับคลังข้อมูลเป็น แหล่งข้อมูล ในกิจกรรมการคัดลอก
จําเป็นต้องมีคุณสมบัติต่อไปนี้:
ชนิดของที่เก็บข้อมูล: เลือกพื้นที่ทํางาน
ประเภทที่เก็บข้อมูลของพื้นที่ทํางาน: เลือก คลัง ข้อมูลจากรายการประเภทที่เก็บข้อมูล
คลังข้อมูล: เลือกคลังข้อมูลที่มีอยู่จากพื้นที่ทํางาน
ใช้คิวรี: เลือกตาราง คิวรี หรือ Stored Procedure
ถ้าคุณเลือก ตาราง เลือกตารางที่มีอยู่จากรายการตาราง หรือระบุชื่อตารางด้วยตนเองโดยการเลือกกล่อง แก้ไข
หากคุณเลือก คิวรี ให้ใช้ตัวแก้ไขคิวรี SQL แบบกําหนดเองเพื่อเขียนคิวรี SQL ที่ดึงข้อมูลต้นทาง
ถ้าคุณเลือก Stored Procedure ให้เลือก Stored Procedure ที่มีอยู่แล้วจากรายการดรอปดาวน์ หรือระบุชื่อของ Stored Procedure เป็นแหล่งข้อมูลโดยการเลือกกล่อง แก้ไข
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
หมดเวลาคิวรี (นาที): หมดเวลาสําหรับการดําเนินการคําสั่งแบบสอบถาม โดยใช้ค่าเริ่มต้น 120 นาที ถ้าตั้งค่าคุณสมบัตินี้ ค่าที่อนุญาตจะอยู่ในรูปแบบของช่วงเวลา เช่น "02:00:00" (120 นาที)
ระดับการแยก: ระบุลักษณะการทํางานของการล็อคธุรกรรมสําหรับแหล่งข้อมูล SQL
ตัวเลือกพาร์ติชัน: ระบุตัวเลือกการแบ่งพาร์ติชันข้อมูลที่ใช้ในการโหลดข้อมูลจากคลังข้อมูล คุณสามารถเลือก ไม่มี หรือ ช่วงไดนามิกได้
หากคุณเลือก ช่วงไดนามิก พารามิเตอร์ของพาร์ติชันช่วง (
?AdfDynamicRangePartitionCondition
) จําเป็นเมื่อใช้คิวรีที่เปิดใช้งานแบบขนาน คิวรีตัวอย่าง:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
- ชื่อคอลัมน์พาร์ติชัน: ระบุชื่อของคอลัมน์ ต้นทางในจํานวนเต็มหรือชนิด วันที่/วันที่เวลา (
int
,smallint
,bigint
,date
,smalldatetime
,datetime
,datetime2
หรือdatetimeoffset
) ที่ถูกใช้โดยช่วงการแบ่งพาร์ติชันสําหรับสําเนาแบบขนาน ถ้าไม่ได้ระบุ ดัชนีหรือคีย์หลักของตารางจะถูกตรวจพบโดยอัตโนมัติและใช้เป็นคอลัมน์พาร์ติชัน - ขอบด้านบนของพาร์ติชัน: ค่าสูงสุดของคอลัมน์พาร์ติชันสําหรับการแยกช่วงพาร์ติชัน ค่านี้ใช้เพื่อตัดสินใจว่าจะดําเนินการแบ่งพาร์ติชัน ไม่ใช่สําหรับการกรองแถวในตาราง แถวทั้งหมดในตารางหรือผลลัพธ์คิวรีจะถูกแบ่งพาร์ติชันและคัดลอก
- ส่วนล่างของพาร์ติชันที่ผูกไว้: ค่าต่ําสุดของคอลัมน์พาร์ติชันสําหรับการแยกช่วงพาร์ติชัน ค่านี้ใช้เพื่อตัดสินใจว่าจะดําเนินการแบ่งพาร์ติชัน ไม่ใช่สําหรับการกรองแถวในตาราง แถวทั้งหมดในตารางหรือผลลัพธ์คิวรีจะถูกแบ่งพาร์ติชันและคัดลอก
- ชื่อคอลัมน์พาร์ติชัน: ระบุชื่อของคอลัมน์ ต้นทางในจํานวนเต็มหรือชนิด วันที่/วันที่เวลา (
คอลัมน์เพิ่มเติม: เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง
ปลายทาง
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับคลังข้อมูลเป็น ปลายทาง ในกิจกรรมการคัดลอก
จําเป็นต้องมีคุณสมบัติต่อไปนี้:
- ชนิดของที่เก็บข้อมูล: เลือกพื้นที่ทํางาน
- ประเภทที่เก็บข้อมูลของพื้นที่ทํางาน: เลือก คลัง ข้อมูลจากรายการประเภทที่เก็บข้อมูล
- คลังข้อมูล: เลือกคลังข้อมูลที่มีอยู่จากพื้นที่ทํางาน
- ตาราง: เลือกตารางที่มีอยู่จากรายการตารางหรือระบุชื่อตารางเป็นปลายทาง
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
คัดลอกการตั้งค่าคําสั่ง: ระบุคัดลอกคุณสมบัติคําสั่ง
ตัวเลือกตาราง: ระบุว่าจะสร้างตารางปลายทางโดยอัตโนมัติหรือไม่ถ้าไม่มีอยู่โดยยึดตาม schema ต้นทาง คุณสามารถเลือก ไม่มี หรือ สร้างตารางอัตโนมัติได้
สคริปต์ก่อนคัดลอก: ระบุคิวรี SQL ที่จะเรียกใช้ก่อนที่จะเขียนข้อมูลลงในคลังข้อมูลในการเรียกใช้แต่ละครั้ง ใช้คุณสมบัตินี้เพื่อล้างข้อมูลที่โหลดไว้ล่วงหน้า
เขียนการหมดเวลาของชุดงาน: เวลารอสําหรับการดําเนินการแทรกชุดงานเพื่อเสร็จสิ้นก่อนที่จะหมดเวลา ค่าที่อนุญาตจะอยู่ในรูปแบบของช่วงเวลา ค่าเริ่มต้นคือ "00:30:00" (30 นาที)
ปิดใช้งานการวิเคราะห์เมตริกประสิทธิภาพ: บริการจะรวบรวมเมตริกสําหรับการเพิ่มประสิทธิภาพการคัดลอกและคําแนะนํา หากคุณกังวลเกี่ยวกับลักษณะการทํางานนี้ ให้ปิดคุณลักษณะนี้
สําเนาโดยตรง
คําสั่ง COPY เป็นวิธีหลักในการนําเข้าข้อมูลลงในตาราง Warehouse คําสั่งคัดลอกคลังข้อมูลรองรับที่เก็บข้อมูล Azure Blob Storage โดยตรงและ Azure Data Lake Storage รุ่น2 เป็นที่เก็บข้อมูลต้นทาง ถ้าข้อมูลต้นทางของคุณตรงตามเกณฑ์ที่อธิบายไว้ในส่วนนี้ ให้ใช้คําสั่งคัดลอกเพื่อคัดลอกโดยตรงจากที่เก็บข้อมูลต้นทางไปยังคลังข้อมูล
ข้อมูลต้นฉบับและรูปแบบประกอบด้วยชนิดและวิธีการรับรองความถูกต้องต่อไปนี้:
ชนิดที่เก็บข้อมูลต้นทางที่สนับสนุน รูปแบบที่ได้รับการสนับสนุน ชนิดการรับรองความถูกต้องของแหล่งข้อมูลที่ได้รับการสนับสนุน ที่เก็บข้อมูล Azure Blob ข้อความที่คั่น
Parquetการรับรองความถูกต้องแบบไม่ระบุชื่อ
การรับรองความถูกต้องของคีย์บัญชี
การรับรองความถูกต้องลายเซ็นการเข้าถึงที่ใช้ร่วมกันAzure Data Lake Storage รุ่น2 ข้อความที่คั่น
Parquetการรับรองความถูกต้องของคีย์บัญชี
การรับรองความถูกต้องลายเซ็นการเข้าถึงที่ใช้ร่วมกันคุณสามารถตั้งค่ารูปแบบต่อไปนี้ได้:
- สําหรับ Parquet: ประเภทการบีบอัดสามารถเป็น ไม่มี, snappy หรือ gzip
- สําหรับ DelimitedText:
- ตัวคั่นแถว: เมื่อคัดลอกข้อความที่คั่นไปยัง Data Warehouse ผ่านคําสั่งคัดลอกโดยตรง ให้ระบุตัวคั่นแถวอย่างชัดเจน (\r; \n; หรือ \r\n) เฉพาะเมื่อตัวคั่นแถวของแฟ้มต้นฉบับคือ \r\n ค่าเริ่มต้น (\r, \n หรือ \r\n) ใช้งานได้ มิฉะนั้น ให้เปิดใช้งานการจัดเตรียมสําหรับสถานการณ์ของคุณ
- ค่า Null ถูกปล่อยให้เป็นค่าเริ่มต้นหรือตั้งค่าเป็นสตริงว่าง ("")
- การเข้ารหัสถูกปล่อยให้เป็นค่าเริ่มต้นหรือตั้งค่าเป็น UTF-8 หรือ UTF-16
- ข้ามจํานวน บรรทัดที่เหลือเป็นค่าเริ่มต้นหรือตั้งค่าเป็น 0
- ชนิดการบีบอัดสามารถเป็น ไม่มี หรือ gzip
ถ้าแหล่งข้อมูลของคุณเป็นโฟลเดอร์ คุณต้องเลือกกล่องกาเครื่องหมายแบบเรียกใช้ซ้ํา
เวลาเริ่มต้น (UTC) และเวลาสิ้นสุด (UTC) ในตัวกรองตามการปรับเปลี่ยนครั้งล่าสุด คํานําหน้า เปิดใช้งานการค้นพบพาร์ติชัน และคอลัมน์เพิ่มเติมไม่ได้ระบุไว้
หากต้องการเรียนรู้วิธีการนําเข้าข้อมูลลงในคลังข้อมูลของคุณโดยใช้คําสั่งคัดลอก โปรดดูบทความนี้
ถ้าแหล่งข้อมูลที่เก็บข้อมูลและรูปแบบของคุณไม่สนับสนุนคําสั่งคัดลอกในตอนแรก ให้ใช้สําเนาตามลําดับขั้นโดยใช้คุณลักษณะคําสั่งคัดลอกแทน โดยจะแปลงข้อมูลเป็นรูปแบบที่เข้ากันได้กับคําสั่งคัดลอกโดยอัตโนมัติ จากนั้นเรียกใช้คําสั่งคัดลอกเพื่อโหลดข้อมูลลงในคลังข้อมูล
สําเนาตามระยะ
เมื่อข้อมูลต้นฉบับของคุณไม่สามารถเข้ากันได้กับคําสั่งคัดลอกในแบบดั้งเดิม ให้เปิดใช้งานการคัดลอกข้อมูลผ่านที่เก็บข้อมูลการจัดเตรียมระหว่างกลาง ในกรณีนี้ บริการจะแปลงข้อมูลโดยอัตโนมัติเพื่อให้ตรงตามข้อกําหนดรูปแบบข้อมูลของคําสั่ง COPY จากนั้นจะเรียกใช้คําสั่ง COPY เพื่อโหลดข้อมูลลงในคลังข้อมูล สุดท้าย เป็นการล้างข้อมูลชั่วคราวของคุณจากที่เก็บข้อมูล
หากต้องการใช้สําเนาแบบกําหนดลําดับขั้น ให้ไปที่ แท็บ การตั้งค่า และเลือก เปิดใช้งานการจัดเตรียม คุณสามารถเลือก พื้นที่ทํางาน เพื่อใช้ที่เก็บข้อมูลการจัดเตรียมที่สร้างขึ้นโดยอัตโนมัติภายใน Fabric ได้ สําหรับภายนอก ที่เก็บข้อมูล Azure Blob และ Azure Data Lake Storage รุ่น2 ได้รับการสนับสนุนเป็นที่เก็บข้อมูลการจัดเตรียมภายนอก คุณจําเป็นต้องสร้าง Azure Blob Storage หรือการเชื่อมต่อ Azure Data Lake Storage รุ่น2 ก่อน จากนั้นเลือกการเชื่อมต่อจากรายการดรอปดาวน์เพื่อใช้ที่เก็บข้อมูลการจัดเตรียม
โปรดทราบว่าคุณจําเป็นต้องตรวจสอบให้แน่ใจว่าช่วง IP ของคลังข้อมูลได้รับอนุญาตอย่างถูกต้องจากที่เก็บข้อมูลการจัดเตรียม
การแม็ป
สําหรับการกําหนดค่าแท็บการแมป ถ้าคุณไม่ได้ใช้คลังข้อมูลกับตารางสร้างอัตโนมัติเป็นปลายทางของคุณ ให้ไปที่ การแมป
ถ้าคุณนําคลังข้อมูลไปใช้ด้วยตารางสร้างอัตโนมัติเป็นปลายทางของคุณ ยกเว้นการกําหนดค่าใน แมป คุณสามารถแก้ไขชนิดของคอลัมน์ปลายทางของคุณได้ หลังจากเลือก นําเข้า schemas คุณสามารถระบุชนิดคอลัมน์ในปลายทางของคุณได้
ตัวอย่างเช่น ชนิดของ คอลัมน์ ID ในแหล่งข้อมูลเป็นจํานวนเต็ม และคุณสามารถเปลี่ยนเป็นชนิดเลขทศนิยมเมื่อแมปไปยังคอลัมน์ปลายทาง
การตั้งค่า
สําหรับการกําหนดค่าแท็บ การตั้งค่า ให้ไปที่ การตั้งค่า
ข้อมูลสรุปของตาราง
ตารางต่อไปนี้ประกอบด้วยข้อมูลเพิ่มเติมเกี่ยวกับกิจกรรมการคัดลอกในคลังข้อมูล
ข้อมูลต้นทาง
ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
---|---|---|---|---|
ชนิดของที่เก็บข้อมูล | ประเภทที่เก็บข้อมูลของคุณ | พื้นที่ | ใช่ | / |
ประเภทที่เก็บข้อมูลของพื้นที่ทํางาน | ส่วนเพื่อเลือกประเภทที่เก็บข้อมูลของพื้นที่ทํางานของคุณ | คลังข้อมูล | ใช่ | ชนิด |
คลังข้อมูล | คลังข้อมูลที่คุณต้องการใช้ | <คลังข้อมูลของคุณ> | ใช่ | ปลาย ทาง artifactId |
ใช้คิวรี | วิธีในการอ่านข้อมูลจากคลังข้อมูล | •ตาราง •สอบถาม •ขั้นตอนการจัดเก็บ |
ไม่ | (ภายใต้ typeProperties ->source )•typeProperties: สคีมา ตาราง • sqlReaderQuery • sqlReaderStoredProcedureName |
หมดเวลาคิวรี (นาที) | การหมดเวลาสําหรับการดําเนินการคําสั่งคิวรี ที่มีค่าเริ่มต้นของ 120 นาที ถ้าตั้งค่าคุณสมบัตินี้ ค่าที่อนุญาตจะอยู่ในรูปแบบของช่วงเวลา เช่น "02:00:00" (120 นาที) | timespan | ไม่ | queryTimeout |
ระดับการแยก | ลักษณะการทํางานการล็อกธุรกรรมสําหรับแหล่งข้อมูล | •ไม่มีใคร •ภาพถ่าย |
ไม่ | isolationLevel |
ตัวเลือกพาร์ติชัน | ตัวเลือกการแบ่งพาร์ติชันข้อมูลที่ใช้ในการโหลดข้อมูลจากคลังข้อมูล | •ไม่มีใคร •ช่วงไดนามิก |
ไม่ | partitionOption |
ชื่อคอลัมน์พาร์ติชัน | ชื่อของคอลัมน์ต้นทางในจํานวนเต็มหรือชนิดวันที่/วันที่เวลา (int , , smallint , bigint date , smalldatetime , , datetime , datetime2 หรือ datetimeoffset ) ที่ใช้โดยการแบ่งพาร์ติชันช่วงสําหรับสําเนาคู่ขนาน ถ้าไม่ได้ระบุ ดัชนีหรือคีย์หลักของตารางจะถูกตรวจพบโดยอัตโนมัติและใช้เป็นคอลัมน์พาร์ติชัน |
<ชื่อคอลัมน์พาร์ติชัน> | ไม่ | partitionColumnName |
ขอบด้านบนของพาร์ติชัน | ค่าสูงสุดของคอลัมน์พาร์ติชันสําหรับการแยกช่วงพาร์ติชัน ค่านี้ใช้เพื่อตัดสินใจว่าจะดําเนินการแบ่งพาร์ติชัน ไม่ใช่สําหรับการกรองแถวในตาราง แถวทั้งหมดในตารางหรือผลลัพธ์คิวรีจะถูกแบ่งพาร์ติชันและคัดลอก | <ขอบด้านบนของพาร์ติชัน> | ไม่ | partitionUpperBound |
ขอบล่างของพาร์ติชัน | ค่าต่ําสุดของคอลัมน์พาร์ติชันสําหรับการแยกช่วงพาร์ติชัน ค่านี้ใช้เพื่อตัดสินใจว่าจะดําเนินการแบ่งพาร์ติชัน ไม่ใช่สําหรับการกรองแถวในตาราง แถวทั้งหมดในตารางหรือผลลัพธ์คิวรีจะถูกแบ่งพาร์ติชันและคัดลอก | <ขอบที่ต่ํากว่าของพาร์ติชัน> | ไม่ | partitionLowerBound |
คอลัมน์เพิ่มเติม | เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ | • ชื่อ •ค่า |
ไม่ | additionalColumns: •ชื่อ •ค่า |
ข้อมูลปลายทาง
ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
---|---|---|---|---|
ชนิดของที่เก็บข้อมูล | ประเภทที่เก็บข้อมูลของคุณ | พื้นที่ | ใช่ | / |
ประเภทที่เก็บข้อมูลของพื้นที่ทํางาน | ส่วนเพื่อเลือกประเภทที่เก็บข้อมูลของพื้นที่ทํางานของคุณ | คลังข้อมูล | ใช่ | ชนิด |
คลังข้อมูล | คลังข้อมูลที่คุณต้องการใช้ | <คลังข้อมูลของคุณ> | ใช่ | ปลาย ทาง artifactId |
ตาราง | ตารางปลายทางสําหรับเขียนข้อมูล | <ชื่อของตารางปลายทางของคุณ> | ใช่ | schema ตาราง |
คัดลอกการตั้งค่าคําสั่ง | การตั้งค่าคุณสมบัติคําสั่งคัดลอก ประกอบด้วยการตั้งค่าเริ่มต้น | ค่าเริ่มต้น: •คอลัมน์ •ค่า |
ไม่ | copyCommandSettings: defaultValues: • columnName • defaultValue |
ตัวเลือกตาราง | จะสร้างตารางปลายทางโดยอัตโนมัติหรือไม่ถ้าไม่มีอยู่ตามสคีมาต้นทาง | •ไม่มีใคร • สร้างตารางอัตโนมัติ |
ไม่ | tableOption: • autoCreate |
สคริปต์สําเนาล่วงหน้า | คิวรี SQL ที่จะเรียกใช้ก่อนที่จะเขียนข้อมูลลงในคลังข้อมูลในการเรียกใช้แต่ละครั้ง ใช้คุณสมบัตินี้เพื่อล้างข้อมูลที่โหลดไว้ล่วงหน้า | <สคริปต์ก่อนคัดลอก> | ไม่ | preCopyScript |
เขียนการหมดเวลาของชุดงาน | เวลารอสําหรับชุดงานที่แทรกการดําเนินงานเพื่อเสร็จสิ้นก่อนที่จะหมดเวลา ค่าที่อนุญาตจะอยู่ในรูปแบบของช่วงเวลา ค่าเริ่มต้นคือ "00:30:00" (30 นาที) | timespan | ไม่ | writeBatchTimeout |
ปิดใช้งานการวิเคราะห์เมตริกประสิทธิภาพ | บริการจะรวบรวมเมตริกสําหรับการเพิ่มประสิทธิภาพการคัดลอกและคําแนะนํา ซึ่งจะแนะนําการเข้าถึง DB หลักเพิ่มเติม | เลือกหรือยกเลิกการเลือก | ไม่ | disableMetricsCollection: จริง หรือ เท็จ |