Anleitung zur Datenanalyse mit Python für Anfänger. Teil 2

CoderStudio, 27.03.2023 14:51
Anleitung zur Datenanalyse mit Python für Anfänger. Teil 2
Schon mal was davon gehört?

Musik kennt keine Grenzen. Das Gleiche gilt für Daten. Das Internet hat viele dieser Grenzen aufgehoben. Beginnen wir also damit, das Internet und Python zu nutzen, um Musikdaten zu analysieren. Wir knüpfen an Teil 1 an.

Lassen Sie uns die am wenigsten beliebten Lieder im Datensatz finden.

popular_df = df_tracks.sort_values('popularity',ascending = True).head(10)
popular_df

Df_tracks ist mein Datset, sortiert nach Popularität und ascending = true bedeutet, dass es aufsteigend sortiert wird, während head nur so viele Werte anzeigt, wie zugewiesen wurden. Schauen wir uns das Ergebnis an

Ein wichtiger Aspekt der Datenanalyse ist die Verwendung der richtigen Messwerte. Songs werden in der Regel in Sekunden oder Minuten angegeben, aber der Datensatz hier verwendet die Millisekunden zählen, so werden wir es auf Sekunden mit dem Code ändern:

df_tracks['duration_second']=df_tracks['duration_ms'].apply(lambda x : round(x/1000))
df_tracks.drop('duration_ms', inplace =True, axis =1)
df_tracks.head()

In der ersten Zeile wird eine Variable "duration_second" erstellt, in die der Wert durch 1000 geteilt wird. Lambda ist eine anonyme Funktion in Python. In der zweiten Zeile wird die Spur duration_ms gelöscht, während "inplace =True" diese Änderung dauerhaft in den Datensatz einträgt.

Jetzt wollen wir die Visualisierung der Daten mit Python sehen. Der Datensatz enthält verschiedene Spalten, aber was ist dann die Korrelation zwischen jedem von ihnen. lassen Sie uns durch den Code zu verstehen:

corr_df=df_tracks.drop(['key','explicit','mode'],axis =1).corr(method="pearson")
plt.figure(figsize = (14,6))
heatmap = sns.heatmap(corr_df,annot=True,fmt='.1g',vmin=-1,vmax=1, center=0, cmap= "inferno", linewidths =1, linecolor="Black")
heatmap.set_title(" correlation heatmap")
heatmap.set_xticklabels(heatmap.get_xticklabels(), rotation = 90)

Dekodieren wir Schritt für Schritt

In der ersten Zeile werden einige unerwünschte Spalten gestrichen und die zu verwendende Korrelationsmethode, d.h. die Pearson-Methode, eingegeben. (Die verwendete Pearson-Methode weist einen Wert von 1 bis -1 zu, wobei 0 für keine Korrelation, 1 für eine vollständig positive Korrelation und - 1 für eine vollständig negative Korrelation steht).

Die zweite Zeile gibt die Größe des Diagramms an.

Die dritte Zeile bedeutet, dass eine Heatmap verwendet wird, die die Variable corr_df verwendet. annot = true schreibt den Datenwert in jede Zelle. vmin und vmax sind die Werte, die zur Verankerung der Farbkarte verwendet werden. "cmap" bestimmt den Farbraum, der beim Mapping der Daten verwendet wird.

Center bestimmt den Wert, bei dem die Farbkarte zentriert wird, wenn abweichende Daten gezeichnet werden. fmt ist der verwendete String-Formatierungscode. Linewidths und linecolor bestimmen die Breite und die Farbe der Linien, die jede Zelle teilen.

center bestimmt den Wert bei dem die Farbkarte zentriert wird wenn abweichende Daten

Um die obige Abbildung zu verstehen, lesen Sie jede Zeile des Codes, um seine Verwendung zu verstehen. Beobachten Sie dann die Daten zusammen mit den Farbskalen, um eine Vorstellung von der Korrelation zu bekommen.

Der Link zum Github findet sich im Teil 1 der Serie.