กําหนดค่า Amazon S3 ในกิจกรรมการคัดลอก
บทความนี้สรุปวิธีการใช้กิจกรรมการคัดลอกในไปป์ไลน์ข้อมูลเพื่อคัดลอกข้อมูลจากและไปยัง Amazon S3
จำเป็นต้องมีสิทธิ์
หากต้องการคัดลอกข้อมูลจาก Amazon S3 ให้ตรวจสอบให้แน่ใจว่าคุณได้รับสิทธิ์ต่อไปนี้สําหรับการดําเนินการวัตถุ Amazon S3: s3:GetObject
และs3:GetObjectVersion
นอกจากนี้ s3:ListAllMyBuckets
จําเป็นต้องมีสิทธิ์และ s3:ListBucket
/s3:GetBucketLocation
สิทธิ์สําหรับการดําเนินการ เช่น การทดสอบการเชื่อมต่อและการเรียกดูจากราก
สําหรับรายการทั้งหมดของสิทธิ์ Amazon S3 ให้ไปที่การระบุสิทธิ์ในนโยบายบนเว็บไซต์ AWS
รูปแบบที่ได้รับการสนับสนุน
Amazon S3 รองรับรูปแบบไฟล์ต่อไปนี้ ดูแต่ละบทความสําหรับการตั้งค่าตามรูปแบบ
- รูปแบบ Avro
- รูปแบบไบนารี
- รูปแบบข้อความที่คั่นด้วยตัวคั่น
- รูปแบบ Excel
- รูปแบบ JSON
- รูปแบบ ORC
- รูปแบบ Parquet
- รูปแบบ XML
การกําหนดค่าที่ได้รับการสนับสนุน
สําหรับการกําหนดค่าของแต่ละแท็บภายใต้กิจกรรมการคัดลอก ให้ไปที่ส่วนต่อไปนี้ตามลําดับ
ทั่วไป
โปรดดูคําแนะนําการตั้งค่าทั่วไปเพื่อกําหนดค่าแท็บ การตั้งค่าทั่วไป
ทรัพยากร
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับ Amazon S3 ภายใต้ แท็บแหล่งข้อมูล ของกิจกรรมการคัดลอก
จําเป็นต้องมีคุณสมบัติต่อไปนี้:
ชนิดของที่เก็บข้อมูล: เลือก ภายนอก
เชื่อมต่อชั่น: เลือกการเชื่อมต่อ Amazon S3 จากรายการการเชื่อมต่อ หากไม่มีการเชื่อมต่อ ให้สร้างการเชื่อมต่อ Amazon ใหม่โดยการเลือก ใหม่
ประเภทเชื่อมต่อ: เลือก Amazon S3 สําหรับประเภทการเชื่อมต่อของคุณ
ประเภทพาธของไฟล์: คุณสามารถเลือกเส้นทางของไฟล์ คํานําหน้า เส้นทางไฟล์อักขระตัวแทน หรือรายการของไฟล์เป็นประเภทเส้นทางของไฟล์ของคุณได้ การกําหนดค่าสําหรับแต่ละการตั้งค่าคือ:
เส้นทางของไฟล์: ถ้าคุณเลือกชนิดนี้ ข้อมูลสามารถคัดลอกจากบักเก็ตที่ระบุหรือบักเก็ตและเส้นทางโฟลเดอร์ที่ระบุได้
คํานําหน้า: ถ้าคุณเลือกชนิดนี้ ให้ ระบุบักเก็ต และ คํานําหน้า
บักเก็ต: ระบุชื่อบักเก็ต S3 ซึ่งจําเป็น
คํานําหน้า: ระบุคํานําหน้าสําหรับชื่อคีย์ S3 ภายใต้บักเก็ตที่ระบุเพื่อกรองไฟล์ S3 ต้นทาง คีย์ S3 ที่มีการเลือกชื่อเริ่มต้นด้วย
bucket/this_prefix
ใช้ตัวกรองด้านบริการของ S3 ซึ่งให้ประสิทธิภาพที่ดีกว่าตัวกรองอักขระตัวแทนเมื่อคุณใช้คํานําหน้าและเลือกที่จะคัดลอกไปยังปลายทางตามไฟล์ด้วยการรักษาลําดับชั้น โปรดทราบว่าเส้นทางย่อยหลังจาก "/" สุดท้ายในคํานําหน้าจะถูกรักษาไว้ ตัวอย่างเช่น คุณมี แหล่งข้อมูล
bucket/folder/subfolder/file.txt
และกําหนดค่าคํานําหน้าเป็นfolder/sub
จากนั้นเส้นทางไฟล์ที่สงวนไว้คือsubfolder/file.txt
เส้นทางไฟล์อักขระตัวแทน: ถ้าคุณเลือกชนิดนี้ ให้ระบุเส้นทางบักเก็ตและอักขระตัวแทน
บักเก็ต: ระบุชื่อบักเก็ต S3 ซึ่งจําเป็น
เส้นทางอักขระตัวแทน: ระบุโฟลเดอร์หรือเส้นทางของแฟ้มด้วยอักขระตัวแทนภายใต้บักเก็ตที่ระบุเพื่อกรองโฟลเดอร์หรือไฟล์ต้นทางของคุณ
สัญลักษณ์ตัวแทนที่อนุญาตคือ:
*
(ตรงกับอักขระศูนย์หรือมากกว่า) และ?
(ตรงกับศูนย์หรืออักขระเดี่ยว) ใช้^
เพื่อหลีกเลี่ยงถ้าชื่อโฟลเดอร์ของคุณมีอักขระตัวแทนหรืออักขระหลีกอยู่ภายใน ดูตัวอย่างเพิ่มเติมใน ตัวอย่างโฟลเดอร์และตัวกรองไฟล์ เส้นทางโฟลเดอร์อักขระตัวแทน: เส้นทางโฟลเดอร์ที่มีอักขระตัวแทนภายใต้บักเก็ตที่ระบุเพื่อกรองโฟลเดอร์ต้นทางชื่อไฟล์อักขระตัวแทน: ชื่อไฟล์ที่มีอักขระตัวแทนภายใต้บักเก็ตและเส้นทางโฟลเดอร์ที่กําหนด (หรือเส้นทางโฟลเดอร์สัญลักษณ์ตัวแทน) เพื่อกรองไฟล์ต้นทาง
รายการไฟล์: หากคุณเลือกประเภทนี้ ให้ ระบุเส้นทาง โฟลเดอร์และ เส้นทางไปยังรายการ ไฟล์เพื่อระบุที่จะคัดลอกชุดไฟล์ที่ระบุ ชี้ไปที่ไฟล์ข้อความที่มีรายการของไฟล์ที่คุณต้องการคัดลอกหนึ่งไฟล์ต่อบรรทัดซึ่งเป็นเส้นทางสัมพัทธ์ไปยังเส้นทางที่กําหนดค่าไว้ สําหรับตัวอย่างเพิ่มเติม ไปที่ ตัวอย่างรายการไฟล์
- เส้นทางโฟลเดอร์: ระบุเส้นทางไปยังโฟลเดอร์ภายใต้บักเก็ตที่ระบุ ซึ่งจําเป็น
- เส้นทางไปยังรายการไฟล์: ระบุเส้นทางของไฟล์ข้อความที่มีรายการของไฟล์ที่คุณต้องการคัดลอก
แบบเรียกใช้ซ้ํา: ระบุว่ามีการอ่านข้อมูลซ้ําจากโฟลเดอร์ย่อยหรือเฉพาะจากโฟลเดอร์ที่ระบุ เมื่อ เลือกเรียกใช้ซ้ํา และปลายทางคือที่เก็บที่ยึดตามไฟล์ โฟลเดอร์หรือโฟลเดอร์ย่อยที่ว่างเปล่าจะไม่ถูกคัดลอกหรือสร้างขึ้นที่ปลายทาง คุณสมบัตินี้ถูกเลือกตามค่าเริ่มต้นและจะไม่นําไปใช้เมื่อคุณกําหนดค่า เส้นทางไปยังรายการไฟล์
รูปแบบไฟล์: เลือกรูปแบบไฟล์ที่ใช้จากรายการดรอปดาวน์ เลือกการตั้งค่าเพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
กรองตามการปรับเปลี่ยนล่าสุด: ไฟล์จะถูกกรองตามวันที่ปรับเปลี่ยนล่าสุดที่คุณระบุ คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์
- เวลาเริ่มต้น (UTC): ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนล่าสุดมากกว่าหรือเท่ากับเวลาที่กําหนดไว้
- เวลาสิ้นสุด (UTC): ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนล่าสุดน้อยกว่าเวลาที่กําหนดไว้
เมื่อ เวลาเริ่มต้น (UTC) มีค่าวันที่เวลา แต่ เวลาสิ้นสุด (UTC) เป็น NULL นั่นหมายความว่าไฟล์ที่มีแอตทริบิวต์ที่ปรับเปลี่ยนล่าสุดมากกว่าหรือเท่ากับค่า datetime จะถูกเลือก เมื่อ เวลาสิ้นสุด (UTC) มีค่าวันที่เวลา แต่ เวลาเริ่มต้น (UTC) เป็น NULL ซึ่งหมายความว่าไฟล์ที่มีแอตทริบิวต์ที่ปรับเปลี่ยนล่าสุดน้อยกว่าค่าวันที่เวลาจะถูกเลือก คุณสมบัติอาจเป็น NULL ซึ่งหมายความว่าไม่มีตัวกรองแอตทริบิวต์ของไฟล์ที่จะนําไปใช้กับข้อมูล
เปิดใช้งานการค้นพบพาร์ติชัน: ระบุว่าจะแยกวิเคราะห์พาร์ติชันจากเส้นทางไฟล์และเพิ่มพาร์ติชันเป็นคอลัมน์ต้นทางเพิ่มเติมหรือไม่ ซึ่งไม่ได้ถูกเลือกตามค่าเริ่มต้นและไม่ได้รับการสนับสนุนเมื่อคุณใช้รูปแบบไฟล์ไบนารี
เส้นทางรากของพาร์ติชัน: เมื่อเปิดใช้งานการค้นพบพาร์ติชัน ให้ระบุเส้นทางรากสัมบูรณ์เพื่ออ่านโฟลเดอร์ที่มีพาร์ติชันเป็นคอลัมน์ข้อมูล
ถ้าไม่ได้ระบุไว้ ตามค่าเริ่มต้น
- เมื่อคุณใช้พาธไฟล์หรือรายการของไฟล์ในแหล่งที่มา พาธรูทของพาร์ติชันคือเส้นทางที่คุณกําหนดค่า
- เมื่อคุณใช้ตัวกรองโฟลเดอร์อักขระตัวแทน เส้นทางรากของพาร์ติชันคือเส้นทางย่อยก่อนอักขระตัวแทนแรก
- เมื่อคุณใช้คํานําหน้า เส้นทางรากของพาร์ติชันคือเส้นทางย่อยก่อน "/" สุดท้าย
ตัวอย่างเช่น สมมติว่าคุณกําหนดค่าเส้นทางเป็น
root/folder/year=2020/month=08/day=27
:- ถ้าคุณระบุเส้นทางรากของพาร์ติชันเป็น
root/folder/year=2020
กิจกรรมการคัดลอกจะสร้างสองคอลัมน์เพิ่มเติมเดือนและวันด้วยค่า "08" และ "27" ตามลําดับ นอกเหนือจากคอลัมน์ภายในไฟล์ - ถ้าไม่ได้ระบุเส้นทางรากของพาร์ติชัน จะไม่มีการสร้างคอลัมน์พิเศษ
การเชื่อมต่อพร้อมกันสูงสุด: ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างไปยังที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น
คอลัมน์เพิ่มเติม: เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง
ปลายทาง
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับ Amazon S3 ภายใต้ แท็บปลายทาง ของกิจกรรมการคัดลอก
จําเป็นต้องมีคุณสมบัติต่อไปนี้:
- ชนิดของที่เก็บข้อมูล: เลือก ภายนอก
- เชื่อมต่อชั่น: เลือกการเชื่อมต่อ Amazon S3 จากรายการการเชื่อมต่อ หากไม่มีการเชื่อมต่อ ให้สร้างการเชื่อมต่อ Amazon ใหม่โดยการเลือก ใหม่
- ประเภทเชื่อมต่อ: เลือก Amazon S3 สําหรับประเภทการเชื่อมต่อของคุณ
- พาธของไฟล์: คุณสามารถคัดลอกข้อมูลไปยังบักเก็ตที่กําหนดหรือบักเก็ตและเส้นทางโฟลเดอร์ที่ระบุได้
- รูปแบบไฟล์: เลือกรูปแบบไฟล์ที่ใช้จากรายการดรอปดาวน์ เลือกการตั้งค่าเพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
คัดลอกลักษณะการทํางาน: กําหนดลักษณะการทํางานของการคัดลอกเมื่อแหล่งข้อมูลคือไฟล์จากที่เก็บข้อมูลตามไฟล์ คุณสามารถเลือกลักษณะการทํางานจากรายการดรอปดาวน์
- ลําดับชั้นลดรูปแบบโครงสร้าง: ไฟล์ทั้งหมดจากโฟลเดอร์ต้นทางอยู่ในระดับแรกของโฟลเดอร์ปลายทาง ไฟล์ปลายทางมีชื่อที่สร้างขึ้นโดยอัตโนมัติ
- ผสานไฟล์: ผสานไฟล์ทั้งหมดจากโฟลเดอร์ต้นทางไปยังไฟล์เดียว ถ้ามีการระบุชื่อไฟล์ ชื่อไฟล์ที่ผสานคือชื่อที่ระบุ มิฉะนั้น จะเป็นชื่อไฟล์ที่สร้างโดยอัตโนมัติ
- รักษาลําดับชั้น: รักษาลําดับชั้นไฟล์ในโฟลเดอร์เป้าหมาย เส้นทางสัมพัทธ์ของไฟล์ต้นทางไปยังโฟลเดอร์ต้นทางจะเหมือนกับเส้นทางสัมพัทธ์ของไฟล์เป้าหมายไปยังโฟลเดอร์เป้าหมาย
การเชื่อมต่อพร้อมกันสูงสุด: คุณสมบัตินี้ระบุขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น
การแม็ป
สําหรับ การกําหนดค่าแท็บการแมป ไปที่ กําหนดค่าการแมปของคุณภายใต้แท็บการแมป ถ้าคุณเลือกไบนารีเป็นรูปแบบไฟล์ของคุณ การแมปจะไม่ได้รับการสนับสนุน
การตั้งค่า
สําหรับการกําหนดค่าแท็บการตั้งค่า ให้ไปที่ กําหนดการตั้งค่าอื่น ๆ ของคุณภายใต้แท็บ การตั้งค่า
ข้อมูลสรุปของตาราง
ตารางต่อไปนี้ประกอบด้วยข้อมูลเพิ่มเติมเกี่ยวกับกิจกรรมการคัดลอกใน Amazon S3
ข้อมูลต้นทาง
ข้อมูลปลายทาง
ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
---|---|---|---|---|
ชนิดของที่เก็บข้อมูล | ประเภทที่เก็บข้อมูลของคุณ | ภายนอก | ใช่ | / |
เชื่อมต่อชั่น | การเชื่อมต่อของคุณไปยังที่เก็บข้อมูลปลายทาง | <การเชื่อมต่อ Amazon S3 ของคุณ> | ใช่ | เชื่อม ต่อ |
ชนิดเชื่อมต่อ | เลือกชนิดสําหรับการเชื่อมต่อของคุณ | Amazon S3 | ใช่ | / |
พาธของไฟล์ | พาธโฟลเดอร์/ไฟล์ไปยังไฟล์ปลายทาง | <เส้นทางโฟลเดอร์/ไฟล์> | ใช่ | / |
ถัง | ชื่อบักเก็ต S3 | <ชื่อบักเก็ตของคุณ> | ใช่ | bucketName |
ได เรก ทอรี | เส้นทางไปยังโฟลเดอร์ภายใต้บักเก็ตที่ระบุ | <ชื่อโฟลเดอร์ของคุณ> | ไม่ | โฟลเดอร์พาธ |
ชื่อไฟล์ | ชื่อไฟล์ภายใต้บักเก็ตและเส้นทางโฟลเดอร์ที่ระบุ | <ชื่อไฟล์ของคุณ> | ไม่ | fileName |
คัดลอกลักษณะการทํางาน | กําหนดลักษณะการทํางานของสําเนาเมื่อแหล่งข้อมูลคือไฟล์จากที่เก็บข้อมูลตามไฟล์ | •ลําดับชั้นลดรูปแบบโครงสร้าง • ผสานไฟล์ •รักษาลําดับชั้น |
ไม่ | copyBehavior: •FlattenHierarchy • MergeFiles •สงวนลําดับชั้น |
การเชื่อมต่อพร้อมกันสูงสุด | ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น | <การเชื่อมต่อพร้อมกันสูงสุด> | ไม่ | maxConcurrent เชื่อมต่อ ions |