Archiwum autora

Spark 3.5.5 – instalacja w punktach

2025-03-02

Zainstaluj Java JDK w wersji 17, np. do katalogu c:\spark\java Zainstaluj WinUtils w wersji 3.3.6 (jeśli używasz Windows 11) np do katalogu c:\spark\hadoop Zainstaluj Spark 3.5.5 z Hadoop 3.3, np. do katalogu c:\spark\spark Zainstaluj Python 3.11, np. do katalogu c:\spark\python. Wykonaj dodatkową kopię pliku python.exe i nazwij ją python3.exe Zdefiniuj zmienne środowiskowe np. dla użytkownika: […]

Spark – tworzenie środowiska

2025-03-02

Zakładając, że masz już zainstalowany Apache Spark, a teraz chcesz zacząć na nim własne eksperymenty, to pewnie przydałoby się jakieś „lekkie” środowisko – miminum z działającym Jupyter Notebook. Oto moja propozycja W wybranym katalogu utwórz środowisko wirtualne Aktywuj je Zainstaluj moduły Uruchom Jupyter Notebook

By Rafał Kraik in SQL

Spark: Przykład prostego, małego data frame

2025-03-02

Wykonując testy, warto mieć pod ręką coś małego, co powinno zawsze zadziałać. Oto moja propozycja: Snippet pochodzi z https://stackoverflow.com/questions/76743484/configuration-of-pyspark-py4jjavaerror

Spark: Błąd po wykonaniu df.show()

2025-03-02

W świeżej instalacji Apache Spark po wykonaniu polecenia df.show() dla prostego data frame pojawiał się bład:Py4JJavaError: An error occurred while calling o160.showString.Instalacja nowa, robiona zgodnie z 1000 instrukcji dostępnych na necie. Bez owijania w bawełnę – chodziło o wersje aplikacji. Tak więc krótko: Instalacja dotyczy Spark 3.5.5 (FEB 27 2025) z wbudowanym Apache Hadoop 3.3 […]

Dodanie programu do ścieżki w ograniczonym środowisku

2025-02-23

Pracujesz sobie na systemie z bardzo okrojonymi uprawnieniami. Jesteś prawie że zwykłym użytkownikiem, zapomnij o instalacji programu tak jak należy. Z drugiej jednak strony na systemie jest zainstalowany stary program (w tym przypadku terraform), a ty chcesz używać nowszej wersji. Co zrobić? Opcja 1 Opcja 2 Ten skrypt najpierw wyłącza wyświetlanie na ekran informacji o […]

Linux: instalacja databricks-cli

2025-01-29

Instalując databricks cli możesz użyć prostej metody przez pip, ale to pułapka…. W ten sposób zainstalujesz starą wersję, która nie jest zgodna z najnowszym databricks i ma znacznie okrojone możliwości. Zamiast tego uruchom curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh Po instalacji może być wymagana modyfikacja ścieżki: export PATH=$PATH:/root/bin to oczywiście krok opcjonalny. To niestety nie koniec […]

Databricks: Listowanie secret-scope i secrets

2025-01-29

Secret-scope to miejsce na przechowywanie secretów. Zakładając, że masz już zainstalowane databricks-cli zrobisz to poleceniem databricks secrets list-scopes Polecenie zwróci nazwy secret-scopów. Można ich użyć do wylistowania sekretów w scopie databricks secrets list-secrets MYSCOPE MYSCOPE należy oczywiście zamienić na właściwą nazwę scope Teraz wynikiem jest wykaz secretów. Gdy chcesz pobrać wartość secretu uruchom databricks secrets […]