ABOUT ME

Today
Yesterday
Total
  • [혼공분석] 4주차_코딩은 40대 후반부터~
    카테고리 없음 2025. 1. 30. 15:53

    [ 기본 숙제(필수) ]

     

    5. ns_book7 남산도서관 대출 데이터에서 1980년~2022년 사이에 발행된 도서를 선택하여

        다음과 같은 '발행년도'열의 히스토그램을 그려 보세요.

        ① matplotlib, ② seaborn, ③ plotly, ④ pygwalker 라이브러리를 활용, 동일 결과/출력~

     

        ① matplotlib

    selected_row = (ns_book7['발행년도']>=1980) & (ns_book7['발행년도']<=2022)
    plt.hist(ns_book7[selected_row]['발행년도'])
    plt.show()

     

       

     

        ② seaborn

    import seaborn as sns
    sns.histplot(data=ns_book7[selected_row], x='발행년도', bins=10)

     

     

        ③ plotly

    import plotly.express as px
    fig = px.histogram(data_frame=ns_book7[selected_row], x='발행년도')
    fig.update_layout(width=650, height=500)

     

     

        ④ pygwalker

    import pygwalker as pyg
    pyg.walk(ns_book7[selected_row])

     

     

    [ 나만의 숙제(필수) ]

     

    6. 문제 5번에서 선택한 도서로 '발행년도'열의 상자 수염 그림을 그려 보세요.

    import plotly.express as px
    fig = px.box(data_frame=ns_book7[selected_row], y='발행년도')
    fig.update_layout(width=650, height=500)

     

     

    추가 숙제(필수) ]

     

    1. Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념 정리~

      기술통게량 개념
    1 평균 데이터값을 모두 더한 후 데이터 개수로 나눈 값
    ns_book7['대출건수'].mean()
    2

    중앙값

    전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값
    ns_book7['대출건수'].median()
    3

    최솟값

    최솟값
    ns_book7['대출건수'].min()
    4

    최댓값

    최대값
    ns_book7['대출건수'].max()
    5

    분위수

    순서대로 나열된 데이터를 일정한 간격으로 나누는 기준점
    예를 들어 사분위수는 데이터를 4등분하며, 25%, 50%, 75%에 위치한 값입니다.
    백분위수는 데이터를 100개의 구간으로 나눕니다.
    ns_book7['대출건수'].quantile(0.25)
    6

    분산

    데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려 줍니다.
    각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터 개수로 나누어 구합니다.
    ns_book7['대출건수'].var()
    7

    표준편차

    분산의 제곱근으로 분산과 마찬가지로 데이터의 분포 정도를 알려 줍니다.
    표준편차는 원본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉽습니다.
    ns_book7['대출건수'].std()
    8

     최빈값

    데이터에서 가장 많이 등장 하는 값을 알려줍니다.
    최빈값은 숫자와 문자 데이터에 모두 적용할 수 있습니다.
    ns_book7['발행년'].mode()

     

    기술통계를 출력하는 describe() 메서드를 활용하여 '대출건수'에 대한 기술통계를 출력해보기~

    ns_book7['대출건수'].describe()

     

Designed by Tistory.