Najlepsze rozwiązania dotyczące zbiorczego przekazywania danych do usługi Azure Database for PostgreSQL — serwer elastyczny
DOTYCZY: Azure Database for PostgreSQL — serwer elastyczny
W tym artykule omówiono różne metody zbiorczego ładowania danych na serwerze elastycznym usługi Azure Database for PostgreSQL wraz z najlepszymi rozwiązaniami dotyczącymi zarówno początkowego ładowania danych w pustych bazach danych, jak i przyrostowych obciążeń danych.
Metody ładowania
Następujące metody ładowania danych są uporządkowane w kolejności od najbardziej czasochłonnych do najmniej czasochłonnych:
- Uruchom jednokrotne
INSERT
polecenie. - Wsaduj do 100 do 1000 wierszy na zatwierdzenie. Blok transakcji umożliwia zawijanie wielu rekordów na zatwierdzenie.
- Uruchom polecenie
INSERT
z wieloma wartościami wierszy. - Uruchom polecenie
COPY
.
Preferowaną metodą ładowania danych do bazy danych jest COPY
polecenie . COPY
Jeśli polecenie nie jest niemożliwe, partia INSERT
jest następną najlepszą metodą. Wielowątkowa obsługa COPY
polecenia jest optymalna do zbiorczego ładowania danych.
Kroki przekazywania danych zbiorczych
Poniżej przedstawiono kroki zbiorczego przekazywania danych na serwer elastyczny usługi Azure Database for PostgreSQL.
Krok 1. Przygotowanie danych
Upewnij się, że dane są czyste i prawidłowo sformatowane dla bazy danych.
Krok 2. Wybieranie metody ładowania
Wybierz odpowiednią metodę ładowania na podstawie rozmiaru i złożoności danych.
Krok 3. Wykonanie metody ładowania
Uruchom wybraną metodę ładowania, aby przekazać dane do bazy danych.
Krok 4. Weryfikowanie danych
Po przekazaniu sprawdź, czy dane zostały poprawnie załadowane do bazy danych.
Najlepsze rozwiązania dotyczące początkowego ładowania danych
Poniżej przedstawiono najlepsze rozwiązania dotyczące początkowego ładowania danych.
Usuwanie indeksów
Przed rozpoczęciem początkowego ładowania danych zalecamy usunięcie wszystkich indeksów w tabelach. Tworzenie indeksów po załadowaniu danych jest zawsze bardziej wydajne.
Usuwanie ograniczeń
Główne ograniczenia upuszczania zostały opisane tutaj:
- Unikatowe ograniczenia klucza
Aby osiągnąć silną wydajność, zalecamy usunięcie unikatowych ograniczeń klucza przed początkowym ładowaniem danych i ponownym utworzeniem ich po zakończeniu ładowania danych. Jednak usunięcie unikatowych ograniczeń klucza anuluje zabezpieczenia przed zduplikowanymi danymi.
- Ograniczenia klucza obcego
Zalecamy usunięcie ograniczeń klucza obcego przed początkowym ładowaniem danych i ponownym utworzeniem ich po zakończeniu ładowania danych.
Zmiana parametru na session_replication_role
replica
powoduje również wyłączenie wszystkich kontroli klucza obcego. Jeśli jednak zmiana nie zostanie prawidłowo użyta, może pozostawić dane niespójne.
Nielogowane tabele
Przed użyciem ich w początkowych obciążeniach danych należy wziąć pod uwagę zalety i wady nieznakowanych tabel.
Korzystanie z nielogowanych tabel przyspiesza ładowanie danych. Dane zapisywane w tabelach nielogowanych nie są zapisywane w dzienniku z wyprzedzeniem zapisu.
Wady używania nielogowanych tabel to:
- Nie są one bezpieczne dla awarii. Niezlogowana tabela jest automatycznie obcinana po awarii lub nieczystym zamknięciu.
- Nie można replikować danych z nieznakowanych tabel do serwerów rezerwowych.
Aby utworzyć nieoznakowaną tabelę lub zmienić istniejącą tabelę na nieoznakowaną, użyj następujących opcji:
Utwórz nową nieznakowaną tabelę przy użyciu następującej składni:
CREATE UNLOGGED TABLE <tablename>;
Przekonwertuj istniejącą zarejestrowaną tabelę na nieznakowaną tabelę przy użyciu następującej składni:
ALTER TABLE <tablename> SET UNLOGGED;
Dostrajanie parametrów serwera
auto vacuum': It's best to turn off
automatyczne czyszczenie danych podczas początkowego ładowania danych. Po zakończeniu początkowego ładowania zalecamy uruchomienie instrukcji ręcznejVACUUM ANALYZE
we wszystkich tabelach w bazie danych, a następnie włączenie poleceniaauto vacuum
.
Uwaga
Postępuj zgodnie z zaleceniami w tym miejscu tylko wtedy, gdy jest wystarczająca ilość pamięci i miejsca na dysku.
maintenance_work_mem
: Można ustawić maksymalnie 2 gigabajty (GB) w wystąpieniu serwera elastycznego usługi Azure Database for PostgreSQL.maintenance_work_mem
ułatwia przyspieszenie automatycznego czyszczenia, indeksowania i tworzenia kluczy obcych.checkpoint_timeout
: W wystąpieniu serweracheckpoint_timeout
elastycznego usługi Azure Database for PostgreSQL wartość można zwiększyć do maksymalnie 24 godzin od domyślnego ustawienia wynoszącego 5 minut. Zalecamy zwiększenie wartości do 1 godziny przed początkowym załadowaniem danych do wystąpienia serwera elastycznego usługi Azure Database for PostgreSQL.checkpoint_completion_target
: Zalecamy wartość 0,9.max_wal_size
: Można ustawić maksymalną dozwoloną wartość w wystąpieniu serwera elastycznego usługi Azure Database for PostgreSQL, czyli 64 GB podczas początkowego ładowania danych.wal_compression
: Można to włączyć. Włączenie tego parametru może wiązać się z dodatkowymi kosztami kompresji procesora CPU podczas rejestrowania i dekompresowania dziennika zapisu podczas odtwarzania wal.
Zalecenia
Przed rozpoczęciem początkowego ładowania danych w wystąpieniu serwera elastycznego usługi Azure Database for PostgreSQL zalecamy:
- Wyłącz wysoką dostępność na serwerze. Można ją włączyć po zakończeniu początkowego ładowania na serwerze podstawowym.
- Tworzenie replik do odczytu po zakończeniu początkowego ładowania danych.
- Utwórz minimalne rejestrowanie lub wyłącz je razem podczas początkowego ładowania danych (na przykład wyłącz narzędzie pgaudit, pg_stat_statements, magazyn zapytań).
Ponowne tworzenie indeksów i dodawanie ograniczeń
Zakładając, że indeksy i ograniczenia zostały usunięte przed początkowym obciążeniem, zalecamy użycie wysokich wartości w maintenance_work_mem
(jak wspomniano wcześniej) w celu utworzenia indeksów i dodania ograniczeń. Ponadto, począwszy od bazy danych PostgreSQL w wersji 11, można zmodyfikować następujące parametry w celu szybszego równoległego tworzenia indeksu po początkowym załadowaniu danych:
max_parallel_workers
: ustawia maksymalną liczbę procesów roboczych, które system może obsługiwać dla zapytań równoległych.max_parallel_maintenance_workers
: określa maksymalną liczbę procesów roboczych, które mogą być używane w programieCREATE INDEX
.
Indeksy można również utworzyć, tworząc zalecane ustawienia na poziomie sesji. Oto przykład tego, jak to zrobić:
SET maintenance_work_mem = '2GB';
SET max_parallel_workers = 16;
SET max_parallel_maintenance_workers = 8;
CREATE INDEX test_index ON test_table (test_column);
Najlepsze rozwiązania dotyczące ładowania danych przyrostowych
W tym miejscu opisano najlepsze rozwiązania dotyczące przyrostowych obciążeń danych.
Tabele partycji
Zawsze zalecamy partycjonowanie dużych tabel. Niektóre zalety partycjonowania, szczególnie podczas obciążeń przyrostowych, obejmują:
- Tworzenie nowych partycji na podstawie nowych różnic sprawia, że dodawanie nowych danych do tabeli jest wydajne.
- Obsługa tabel staje się łatwiejsza. Partycję można usunąć podczas przyrostowego ładowania danych, aby uniknąć czasochłonnych operacji usuwania w dużych tabelach.
- Automatyczne czyszczenie zostanie wyzwolone tylko na partycjach, które zostały zmienione lub dodane podczas obciążeń przyrostowych, co ułatwia utrzymywanie statystyk w tabeli.
Utrzymywanie aktualnych statystyk tabeli
Monitorowanie i utrzymywanie statystyk tabeli jest ważne w przypadku wydajności zapytań w bazie danych. Obejmuje to również scenariusze, w których są ładowane przyrostowe. Usługa PostgreSQL używa procesu demona automatycznego czyszczenia, aby wyczyścić martwe krotki i przeanalizować tabele w celu zachowania aktualizacji statystyk. Aby uzyskać więcej informacji, zobacz Automatyczne monitorowanie i dostrajanie czyszczenia.
Tworzenie indeksów w ograniczeniach klucza obcego
Tworzenie indeksów na kluczach obcych w tabelach podrzędnych może być korzystne w następujących scenariuszach:
- Aktualizacje lub usunięcia danych w tabeli nadrzędnej. Gdy dane są aktualizowane lub usuwane w tabeli nadrzędnej, wyszukiwania są wykonywane w tabeli podrzędnej. Możesz indeksować klucze obce w tabeli podrzędnej, aby szybciej wyszukiwać.
- Zapytania, w których można wyświetlać tabele nadrzędne i podrzędne łączące się z kolumnami kluczy.
Identyfikowanie nieużywanych indeksów
Zidentyfikuj nieużywane indeksy w bazie danych i upuść je. Indeksy są obciążeniem podczas ładowania danych. Mniejsza liczba indeksów w tabeli, tym większa wydajność podczas pozyskiwania danych.
Nieużywane indeksy można zidentyfikować na dwa sposoby: według magazynu zapytań i zapytania użycia indeksu.
Magazyn zapytań
Funkcja Magazynu zapytań ułatwia identyfikowanie indeksów, które można porzucić na podstawie wzorców użycia zapytań w bazie danych. Aby uzyskać szczegółowe wskazówki, zobacz Magazyn zapytań.
Po włączeniu magazynu zapytań na serwerze możesz użyć następującego zapytania, aby zidentyfikować indeksy, które można usunąć, łącząc się z bazą danych azure_sys.
SELECT * FROM IntelligentPerformance.DropIndexRecommendations;
Użycie indeksu
Możesz również użyć następującego zapytania, aby zidentyfikować nieużywane indeksy:
SELECT
t.schemaname,
t.tablename,
c.reltuples::bigint AS num_rows,
pg_size_pretty(pg_relation_size(c.oid)) AS table_size,
psai.indexrelname AS index_name,
pg_size_pretty(pg_relation_size(i.indexrelid)) AS index_size,
CASE WHEN i.indisunique THEN 'Y' ELSE 'N' END AS "unique",
psai.idx_scan AS number_of_scans,
psai.idx_tup_read AS tuples_read,
psai.idx_tup_fetch AS tuples_fetched
FROM
pg_tables t
LEFT JOIN pg_class c ON t.tablename = c.relname
LEFT JOIN pg_index i ON c.oid = i.indrelid
LEFT JOIN pg_stat_all_indexes psai ON i.indexrelid = psai.indexrelid
WHERE
t.schemaname NOT IN ('pg_catalog', 'information_schema')
ORDER BY 1, 2;
Kolumny number_of_scans
, tuples_read
i tuples_fetched
wskazują indeks usage.number_of_scans wartość kolumny zero punktów jako indeks, który nie jest używany.
Dostrajanie parametrów serwera
Uwaga
Postępuj zgodnie z zaleceniami w poniższych parametrach tylko wtedy, gdy jest wystarczająca ilość pamięci i miejsca na dysku.
maintenance_work_mem
: Ten parametr można ustawić na maksymalnie 2 GB w wystąpieniu serwera elastycznego usługi Azure Database for PostgreSQL.maintenance_work_mem
ułatwia przyspieszenie tworzenia indeksu i dodawania kluczy obcych.checkpoint_timeout
: W wystąpieniucheckpoint_timeout
serwera elastycznego usługi Azure Database for PostgreSQL wartość można zwiększyć do 10 lub 15 minut od domyślnego ustawienia 5 minut. Zwiększeniecheckpoint_timeout
do bardziej znaczącej wartości, takiej jak 15 minut, może zmniejszyć obciążenie we/wy, ale wadą jest to, że odzyskiwanie w przypadku awarii trwa dłużej. Zalecamy staranne rozważenie przed wprowadzeniem zmiany.checkpoint_completion_target
: Zalecamy wartość 0,9.max_wal_size
: Ta wartość zależy od jednostki SKU, magazynu i obciążenia. W poniższym przykładzie pokazano jeden ze sposobów uzyskania poprawnej wartości dla elementumax_wal_size
.
W godzinach szczytu pracy dotrzesz do wartości, wykonując następujące czynności:
a. Pobierz bieżący numer sekwencji dziennika WAL (LSN), uruchamiając następujące zapytanie:
SELECT pg_current_wal_lsn ();
b. Poczekaj checkpoint_timeout
na liczbę sekund. Wykonaj bieżącą nazwę LSN wal, uruchamiając następujące zapytanie:
SELECT pg_current_wal_lsn ();
c. Użyj dwóch wyników, aby sprawdzić różnicę w GB:
SELECT round (pg_wal_lsn_diff('LSN value when running the second time','LSN value when run the first time')/1024/1024/1024,2) WAL_CHANGE_GB;
wal_compression
: Można to włączyć. Włączenie tego parametru może wiązać się z dodatkowym kosztem procesora CPU podczas kompresowania podczas rejestrowania wal i dekompresowania podczas odtwarzania WAL.
Powiązana zawartość
- Rozwiązywanie problemów z wysokim użyciem procesora w usłudze Azure Database for PostgreSQL — serwer elastyczny.
- Rozwiązywanie problemów z wysokim wykorzystaniem pamięci w usłudze Azure Database for PostgreSQL — serwer elastyczny.
- Rozwiązywanie problemów i identyfikowanie wolnych zapytań w usłudze Azure Database for PostgreSQL — serwer elastyczny.
- Parametry serwera w usłudze Azure Database for PostgreSQL — serwer elastyczny.
- Dostrajanie automatycznego czyszczenia w usłudze Azure Database for PostgreSQL — serwer elastyczny.