read_csv() to podstawowa funkcja do wczytywania danych CSV
obsługuje różne separatory, kodowania i inne opcje formatowania
wydajny nawet dla dużych plików dzięki optymalizacjom C
# Podstawowe wczytanie pliku CSVdf = pd.read_csv('data.csv')# Z dodatkowymi parametramidf = pd.read_csv('data.csv', sep=';', # separator kolumn (domyślnie ',') decimal=',', # separator dziesiętny encoding='utf-8', # kodowanie znaków header=0, # numer wiersza z nagłówkami (0-based) na_values=['NA', '-'] # wartości uznawane za braki danych )# Wczytanie tylko wybranych kolumndf = pd.read_csv('data.csv', usecols=['Date', 'Sales', 'Product'])
TXT
również wczytywane przez read_csv() dzięki elastyczności tej funkcji
przydatne przy danych z nietypowymi separatorami (np. tabulatory, spacje)
# Wczytanie pliku TXT z separatorem tabdf = pd.read_csv('data.txt', sep='\t')# Dla plików z separatorem o stałej szerokościdf = pd.read_fwf('data.txt', widths=[10, 5, 8]) # szerokości kolumn
xlsx
wymaga zainstalowania biblioteki openpyxl lub xlrd
pozwala na wczytywanie konkretnych arkuszy lub zakresów komórek
wolniejszy od CSV przy dużych plikach
# pip install openpyxl# Podstawowe wczytaniedf = pd.read_excel('data.xlsx')# Z dodatkowymi parametramidf = pd.read_excel('data.xlsx', sheet_name='Sales', # nazwa arkusza (domyślnie pierwszy) skiprows=2, # pominięcie pierwszych wierszy usecols='A:C,F', # wybrane kolumny (notacja Excel) na_values=['N/A'] # wartości uznawane za braki danych )# Wczytanie wielu arkuszy do słownika ramek danychdfs = pd.read_excel('data.xlsx', sheet_name=None) # None = wszystkie arkusze
Pliki JSON
read_json() obsługuje różne orientacje danych JSON
może bezpośrednio wczytać dane z API zwracających JSON
przydatny dla danych z sieci i web API
# Podstawowe wczytaniedf = pd.read_json('data.json')# Dla JSONów o różnych orientacjachdf = pd.read_json('data.json', orient='records') # lista rekordówdf = pd.read_json('data.json', orient='split') # osobne kolumny i wiersze# Normalizacja zagnieżdżonych danychdf = pd.json_normalize(json_data) # spłaszczenie zagnieżdżonych JSON
GitHub - wczytywanie danych bezpośrednio z repozytoriów
przydatne dla otwartych zbiorów danych i notebooków
można wczytać bez pobierania pliku lokalnie
# Bezpośrednie wczytanie z URL surowych danych z GitHuburl = 'https://raw.githubusercontent.com/username/repo/main/data.csv'df = pd.read_csv(url)# Używając biblioteki requests dla bardziej zaawansowanych przypadkówimport requestsresponse = requests.get(url)df = pd.read_csv(io.StringIO(response.text))
API internetowe - dostęp do danych od zewnętrznych dostawców
często wymaga klucza API i autentykacji
zwykle zwraca dane w formacie JSON
# Przykład pobrania danych z APIimport requestsurl = 'https://api.example.com/data'params = {'key': 'your_api_key', 'format': 'json'}response = requests.get(url, params=params)# Konwersja odpowiedzi na ramkę danychdf = pd.DataFrame(response.json()['results'])