กําหนดค่า FTP ในกิจกรรมการคัดลอก
บทความนี้สรุปวิธีการใช้กิจกรรมการคัดลอกในไปป์ไลน์ข้อมูลเพื่อคัดลอกข้อมูลจาก FTP
รูปแบบที่ได้รับการสนับสนุน
FTP สนับสนุนรูปแบบแฟ้มต่อไปนี้ ดูแต่ละบทความสําหรับการตั้งค่าตามรูปแบบ
- รูปแบบ Avro
- รูปแบบไบนารี
- รูปแบบข้อความที่คั่นด้วยตัวคั่น
- รูปแบบ Excel
- รูปแบบ JSON
- รูปแบบ ORC
- รูปแบบ Parquet
- รูปแบบ XML
การกําหนดค่าที่ได้รับการสนับสนุน
สําหรับการกําหนดค่าของแต่ละแท็บภายใต้กิจกรรมการคัดลอก ให้ไปที่ส่วนต่อไปนี้ตามลําดับ
ทั่วไป
โปรดดูคําแนะนําการตั้งค่าทั่วไปเพื่อกําหนดค่าแท็บ การตั้งค่าทั่วไป
ทรัพยากร
ไปที่ แท็บแหล่งที่มา เพื่อกําหนดค่าแหล่งข้อมูลกิจกรรมการคัดลอกของคุณ ดูเนื้อหาต่อไปนี้สําหรับการกําหนดค่าโดยละเอียด
จําเป็นต้องมีคุณสมบัติสามประการต่อไปนี้:
ชนิดของที่เก็บข้อมูล: เลือก ภายนอก
เชื่อมต่อ: เลือกการเชื่อมต่อ FTP จากรายการการเชื่อมต่อ ถ้าไม่มีการเชื่อมต่ออยู่ ให้สร้างการเชื่อมต่อ FTP ใหม่โดยการเลือก ใหม่
ประเภทพาธของไฟล์: เลือก จากพาธไฟล์ เส้นทางไฟล์อักขระตัวแทน และรายการของไฟล์ตามวิธีที่คุณต้องการอ่านไฟล์
เส้นทางของไฟล์: ถ้าคุณเลือกชนิดนี้ ให้ระบุเส้นทางของไฟล์ต้นทางของคุณ คุณสามารถเลือก เรียกดู เพื่อเลือกไฟล์ต้นฉบับของคุณ หรือป้อนเส้นทางไฟล์ของคุณด้วยตนเอง
เส้นทางไฟล์ป่า: หากคุณเลือกประเภทนี้ ให้ ระบุเส้นทาง อักขระตัวแทนเพื่อกรองโฟลเดอร์หรือไฟล์ต้นทางของคุณ
สัญลักษณ์ตัวแทนที่อนุญาตคือ
*
(ตรงกับอักขระศูนย์หรือมากกว่านั้น) และ?
(ตรงกับศูนย์หรืออักขระเดี่ยว) ใช้^
เพื่อหลีกเลี่ยงถ้าชื่อโฟลเดอร์ของคุณมีอักขระตัวแทนหรืออักขระหลีกเลี่ยงนี้อยู่ภายใน สําหรับตัวอย่างเพิ่มเติม ไปที่ ตัวอย่างตัวกรองโฟลเดอร์และไฟล์เส้นทางโฟลเดอร์อักขระตัวแทน: ระบุเส้นทางโฟลเดอร์ที่มีอักขระตัวแทนเพื่อกรองโฟลเดอร์ต้นทาง
ชื่อแฟ้มอักขระตัวแทน: ระบุชื่อแฟ้มด้วยอักขระตัวแทนภายใต้เส้นทางโฟลเดอร์ที่ระบุเส้นทางโฟลเดอร์ Path/อักขระตัวแทนสําหรับกรองแฟ้มต้นฉบับ
รายการของไฟล์: หากคุณเลือกประเภทนี้ ให้ ระบุเส้นทาง โฟลเดอร์และ เส้นทางไปยังรายการ ไฟล์เพื่อระบุที่จะคัดลอกชุดไฟล์ที่ระบุ ชี้ไปที่ไฟล์ข้อความที่มีรายการไฟล์ที่คุณต้องการคัดลอกหนึ่งไฟล์ต่อหนึ่งบรรทัด สําหรับตัวอย่างเพิ่มเติม ไปที่ ตัวอย่างรายการไฟล์
เส้นทางโฟลเดอร์: ระบุเส้นทางไปยังโฟลเดอร์ต้นทางของคุณ ซึ่งจําเป็น
เส้นทางไปยังรายการไฟล์: ระบุเส้นทางของไฟล์ข้อความที่มีรายการของไฟล์ที่คุณต้องการคัดลอก
รูปแบบไฟล์: เลือกรูปแบบไฟล์ที่ใช้จากรายการดรอปดาวน์ เลือกการตั้งค่าเพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
กรองตามการปรับเปลี่ยนล่าสุด: ไฟล์จะถูกกรองตามวันที่ปรับเปลี่ยนล่าสุด คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์
- เวลาเริ่มต้น (UTC): ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนล่าสุดมากกว่าหรือเท่ากับเวลาที่กําหนดไว้
- เวลาสิ้นสุด (UTC): ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนล่าสุดน้อยกว่าเวลาที่กําหนดไว้
เมื่อ เวลาเริ่มต้น (UTC) มีค่าวันที่เวลา แต่ เวลาสิ้นสุด (UTC) เป็น NULL นั่นหมายความว่าไฟล์ที่มีแอตทริบิวต์ที่ปรับเปลี่ยนล่าสุดมากกว่าหรือเท่ากับค่า datetime จะถูกเลือก เมื่อ เวลาสิ้นสุด (UTC) มีค่าวันที่เวลา แต่ เวลาเริ่มต้น (UTC) เป็น NULL ซึ่งหมายความว่าไฟล์ที่มีแอตทริบิวต์ที่ปรับเปลี่ยนล่าสุดน้อยกว่าค่าวันที่เวลาจะถูกเลือก คุณสมบัติอาจเป็น NULL ซึ่งหมายความว่าไม่มีตัวกรองแอตทริบิวต์ของไฟล์ที่จะนําไปใช้กับข้อมูล
ปิดใช้งานการจัดกลุ่ม: การจัดกลุ่มถูกออกแบบมาเพื่อปรับประสิทธิภาพให้เหมาะสมและเกิดขึ้นข้างใต้ ตัวเลือกนี้อนุญาตให้คุณปิดใช้งานการจัดกลุ่มภายในแต่ละไฟล์ เมื่อคัดลอกข้อมูลจาก FTP บริการจะพยายามรับความยาวไฟล์ก่อน จากนั้นแบ่งไฟล์ออกเป็นหลายส่วนแล้วอ่านไฟล์พร้อมกัน ระบุว่าเซิร์ฟเวอร์ FTP ของคุณสนับสนุนการรับความยาวแฟ้ม หรือต้องการอ่านจากออฟเซตใดค่าหนึ่ง ซึ่งไม่ได้ถูกเลือกตามค่าเริ่มต้น
เปิดใช้งานการค้นพบพาร์ติชัน: ระบุว่าจะแยกวิเคราะห์พาร์ติชันจากเส้นทางไฟล์และเพิ่มพาร์ติชันเป็นคอลัมน์ต้นทางเพิ่มเติมหรือไม่ ซึ่งไม่ได้ถูกเลือกตามค่าเริ่มต้นและไม่ได้รับการสนับสนุนเมื่อคุณใช้รูปแบบไฟล์ไบนารี
เส้นทางรากของพาร์ติชัน: เมื่อเปิดใช้งานการค้นพบพาร์ติชัน ให้ระบุเส้นทางรากสัมบูรณ์เพื่ออ่านโฟลเดอร์ที่มีพาร์ติชันเป็นคอลัมน์ข้อมูล
ถ้าไม่ได้ระบุไว้ ตามค่าเริ่มต้น- เมื่อคุณใช้พาธไฟล์หรือรายการของไฟล์ในแหล่งที่มา พาธรูทของพาร์ติชันคือเส้นทางที่คุณกําหนดค่า
- เมื่อคุณใช้ตัวกรองโฟลเดอร์อักขระตัวแทน เส้นทางรากของพาร์ติชันคือเส้นทางย่อยก่อนอักขระตัวแทนแรก
ตัวอย่างเช่น สมมติว่าคุณกําหนดค่าเส้นทางเป็น
root/folder/year=2020/month=08/day=27
:- ถ้าคุณระบุเส้นทางรากของพาร์ติชันเป็น
root/folder/year=2020
กิจกรรมการคัดลอกจะสร้างสองคอลัมน์เพิ่มเติมเดือนและวันด้วยค่า "08" และ "27" ตามลําดับ นอกเหนือจากคอลัมน์ภายในไฟล์ - ถ้าไม่ได้ระบุเส้นทางรากของพาร์ติชัน จะไม่มีการสร้างคอลัมน์พิเศษ
ใช้การถ่ายโอนไบนารี: ระบุว่าจะใช้โหมดการถ่ายโอนไบนารีหรือไม่ เลือกเพื่อใช้โหมดไบนารี (ค่าเริ่มต้น) หรือยกเลิกการเลือกเพื่อใช้ ASCII
การเชื่อมต่อพร้อมกันสูงสุด: คุณสมบัตินี้ระบุขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น
คอลัมน์เพิ่มเติม: เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง สําหรับข้อมูลเพิ่มเติม ให้ไปที่ เพิ่มคอลัมน์เพิ่มเติมในระหว่างการคัดลอก
การแม็ป
สําหรับ การกําหนดค่าแท็บการแมป ดู กําหนดค่าการแมปของคุณภายใต้แท็บการแมป ถ้าคุณเลือกไบนารีเป็นรูปแบบไฟล์ของคุณ การแมปจะไม่ได้รับการสนับสนุน
การตั้งค่า
สําหรับการตั้งค่าการกําหนดค่าแท็บ ให้ไปที่ กําหนดค่าการตั้งค่าอื่น ๆ ของคุณภายใต้แท็บ การตั้งค่า
ข้อมูลสรุปของตาราง
ตารางต่อไปนี้มีข้อมูลเพิ่มเติมเกี่ยวกับกิจกรรมการคัดลอกใน FTP
ทรัพยากร
ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
---|---|---|---|---|
ชนิดของที่เก็บข้อมูล | ประเภทที่เก็บข้อมูลของคุณ | ภายนอก | ใช่ | / |
เชื่อมต่อชั่น | การเชื่อมต่อ FTP ของคุณไปยังที่เก็บข้อมูลต้นทาง | < การเชื่อมต่อ FTP ของคุณ > | ใช่ | เชื่อม ต่อ |
ชนิดพาธของไฟล์ | ชนิดพาธของไฟล์ที่ใช้ในการรับข้อมูลต้นทาง | • พาธของไฟล์ • เส้นทางไฟล์อักขระตัวแทน • รายการไฟล์ |
ใช่ | / |
พาธของไฟล์ | เส้นทางไปยังไฟล์ต้นทาง | < เส้นทางของไฟล์> | ใช่ | fileName โฟลเดอร์พาธ |
เส้นทางอักขระตัวแทน | เส้นทางอักขระตัวแทนไปยังไฟล์ต้นทาง | < เส้นทางไฟล์สัญลักษณ์ตัวแทนของคุณ > | ใช่สําหรับ ชื่อไฟล์อักขระตัวแทน | wildcardFolderPath wildcardFileName |
เส้นทางโฟลเดอร์ | เส้นทางไปยังโฟลเดอร์ต้นทางของคุณ | < เส้นทางโฟลเดอร์หลักทั่วไป> | ใช่ | folderPath |
เส้นทางไปยังรายการไฟล์ | บ่งชี้ว่าจะคัดลอกชุดไฟล์ที่กําหนด ชี้ไปที่ไฟล์ข้อความที่มีรายการไฟล์ที่คุณต้องการคัดลอกหนึ่งไฟล์ต่อหนึ่งบรรทัด | < เส้นทางรายการไฟล์ > | ไม่ | fileListPath |
รูปแบบไฟล์ | รูปแบบไฟล์สําหรับข้อมูลต้นฉบับของคุณ สําหรับข้อมูลของรูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด | / | ใช่ | / |
กรองตามการปรับเปลี่ยนล่าสุด | ไฟล์ที่มีเวลาที่ปรับเปลี่ยนครั้งล่าสุดในช่วง [เวลาเริ่มต้น เวลาสิ้นสุด) จะถูกกรองสําหรับการประมวลผลเพิ่มเติม เวลาจะถูกนําไปใช้กับโซนเวลา UTC ในรูปแบบของyyyy-mm-ddThh:mm:ss.fffZ สามารถข้ามคุณสมบัติเหล่านี้ได้ ซึ่งหมายความว่าจะไม่มีการใช้ตัวกรองแอตทริบิวต์ของไฟล์ คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์ |
datetime | ไม่ | modifiedDatetimeStart modifiedDatetimeEnd |
ปิดใช้งานการจัดกลุ่ม | การทํางานแบบกลุ่มถูกออกแบบมาเพื่อปรับประสิทธิภาพให้เหมาะสมและเกิดขึ้นข้างใต้ ตัวเลือกนี้อนุญาตให้คุณปิดใช้งานการจัดกลุ่มภายในแต่ละไฟล์ เมื่อคัดลอกข้อมูลจาก FTP บริการจะพยายามรับความยาวไฟล์ก่อน จากนั้นแบ่งไฟล์ออกเป็นหลายส่วนแล้วอ่านไฟล์พร้อมกัน ระบุว่าเซิร์ฟเวอร์ FTP ของคุณสนับสนุนการรับความยาวแฟ้ม หรือต้องการอ่านจากออฟเซตใดค่าหนึ่ง | เลือกหรือไม่เลือก (ค่าเริ่มต้น) | ไม่ | disableChunking: จริง หรือ เท็จ (ค่าเริ่มต้น) |
เปิดใช้งานการค้นพบพาร์ติชัน | ระบุว่าจะแยกวิเคราะห์พาร์ติชันจากเส้นทางไฟล์และเพิ่มพาร์ติชันเหล่านั้นเป็นคอลัมน์ต้นทางเพิ่มเติมหรือไม่ | เลือกหรือไม่เลือก (ค่าเริ่มต้น) | ไม่ | enablePartitionDiscovery: จริง หรือ เท็จ (ค่าเริ่มต้น) |
เส้นทางรากของพาร์ติชัน | เส้นทางรากของพาร์ติชันแบบสัมบูรณ์เพื่ออ่านโฟลเดอร์ที่มีการแบ่งพาร์ติชันเป็นคอลัมน์ข้อมูล ระบุได้เมื่อเปิดใช้งานการค้นพบพาร์ติชัน | < เส้นทางรากของพาร์ติชัน > | ไม่ | partitionRootPath |
ใช้การถ่ายโอนไบนารี | ระบุว่าจะใช้โหมดการถ่ายโอนไบนารีหรือไม่ ค่าเป็นจริงสําหรับโหมดไบนารี (ค่าเริ่มต้น) และเท็จสําหรับ ASCII | เลือกแล้ว (ค่าเริ่มต้น) หรือยกเลิกการเลือก | ไม่ | useBinaryTransfer: จริง (ค่าเริ่มต้น) หรือ เท็จ |
การเชื่อมต่อพร้อมกันสูงสุด | ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น | < ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกัน > (จํานวนเต็ม) |
ไม่ | maxConcurrent เชื่อมต่อ ions |
คอลัมน์เพิ่มเติม | เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง สําหรับข้อมูลเพิ่มเติม ไปที่ เพิ่มคอลัมน์เพิ่มเติมในระหว่างการคัดลอก | • ชื่อ •ค่า |
ไม่ | additionalColumns: •ชื่อ •ค่า |