import pandas as pd
import numpy as np
import mysql.connector
from sqlalchemy import create_engine
engine = create_engine("mysql+mysqlconnector://root:password@localhost/finmind_tw")

FF_MC = pd.read_sql_query(
    sql = 'SELECT * FROM marketcap',
    con = engine).assign(date = lambda x: x.date.astype('str'))
FF_MC.head(5)

FF_MC = FF_MC.sort_values(['stock_id','date']).assign(
    year = lambda x: x.date.str.slice_replace(start=-5,repl ='12-01')).\
    groupby(['stock_id','year'],as_index = False).market_value.\
    agg([('MC', lambda x: x.tail(n = 1) )]).loc[lambda x: x.MC != 0]

FF_AstEqt = pd.read_sql_query(
    sql = "SELECT * FROM balancesheet WHERE type IN ('Equity','TotalAssets')",
    con = engine).assign(date = lambda x: x.date.astype('str'),
                         stock_id = lambda x: x.stock_id.astype('str'))
FF_AstEqt.head(5)

FF_AstEqt = FF_AstEqt.pivot(index = ['date','stock_id'],
                            columns = 'type',
                            values = 'value').reset_index()#.assign(date = lambda x: x.date.astype('str'))
FF_AstEqt = FF_AstEqt.assign(
    date = lambda x: x.date.str.slice_replace(start = -2,repl = '01')).rename(
        columns = {'date':'year'}).loc[lambda x: x.Equity > 0]
FF_AstEqt = FF_AstEqt.loc[lambda x: x.year.str.contains('12-01')]

FF_OP = pd.read_sql_query(
    sql = "SELECT * FROM incomestatement WHERE type IN ('Revenue','CostOfGoodsSold','OperatingExpenses')",
    con = engine).assign(date = lambda x: x.date.astype('str'))
FF_OP.head(5)

FF_OP = FF_OP.pivot(index = ['date','stock_id'],
                    columns = 'type',
                    values = 'value').reset_index().dropna().assign(
            OP = lambda x: x.Revenue - x.CostOfGoodsSold - x.OperatingExpenses)[['date','stock_id','OP']]
#FF_OP = FF_OP.assign(date = lambda x: x.date.astype('str'))
FF_OP = FF_OP.assign(
    year = FF_OP.date.str.slice_replace(start = -5,repl = '12-01') )
FF_OP = FF_OP.groupby(['stock_id','year'],as_index = False).OP.agg([('yOP', lambda x: x.sum())])

FF_material = pd.merge(FF_AstEqt,FF_MC, on=['stock_id','year'], how='left').\
                 merge(FF_OP, on=['stock_id','year'], how='left')

TSE_company = pd.read_csv('C:/Users/e1155_l2c4ye3/Desktop/famafactor_py/TSE_company.csv')
OTC_company = pd.read_csv('C:/Users/e1155_l2c4ye3/Desktop/famafactor_py/OTC_company.csv')
bank_code = pd.concat([TSE_company,OTC_company])
bank_code = bank_code[['公司代號','產業類別']].rename(columns = {'公司代號':'stock_id','產業類別' : 'Industry'})
bank_code = bank_code[bank_code.Industry.str.contains('金融')].drop(columns = ['Industry']).stock_id.astype('str').to_list()
FF_material = FF_material[~FF_material.stock_id.isin(bank_code)]
FF_material = FF_material.sort_values(['stock_id','year']).dropna()

FF_material = FF_material.assign(
    BMratio = FF_material.Equity / FF_material.MC,
    OPtoE = FF_material.yOP/FF_material.Equity,
    Inv = FF_material.groupby('stock_id').TotalAssets.transform( lambda x: np.log(x) - np.log(x.shift(1)) ) ).dropna()

FF_material = FF_material.assign(
    g_size = FF_material.groupby('year').\
        MC.transform(
            lambda x: pd.qcut(x,q = [0,0.5,1],
                              labels=['s1','s2']) ),
    g_bm = FF_material.groupby('year').\
        BMratio.transform(
            lambda x: pd.qcut(x, q = [0,0.3,0.7,1],
                              labels=['bm1','bm2','bm3']) ),
    g_op = FF_material.groupby('year').\
        OPtoE.transform(
            lambda x: pd.qcut(x, q = [0,0.3,0.7,1],
                              labels=['op1','op2','op3']) ),
    g_inv = FF_material.groupby('year').\
        Inv.transform(lambda x: pd.qcut(x, q = [0,0.3,0.7,1],
                          labels=['inv1','inv2','inv3']) ))

FF_material = FF_material[['year','stock_id','MC','g_size','g_bm','g_op','g_inv']]
FF_material.head(5)

Corresponding = pd.DataFrame({
    'ret_date':pd.Series(pd.date_range(
        start = '2001-07-01',end='2026-06-01', freq = 'MS')).\
        dt.date.astype('str'),
    # 因為 year 有重複值, 他的serires.index 也是重複值:0,0,0,1,1,1....,所以要reset_index才可以組合成df
    'year':pd.Series(pd.date_range(
        start = '2000-12-01',end='2024-12-01', freq = '12MS')).\
        repeat(12).dt.date.astype('str').reset_index(drop = True) 
    }) 
Corresponding.head(13)
# 以下面資料為例，月報酬日期2001-07~2002-06對應的財報日期(也就是FF_material的year)為2000-12，然後在7月重新分組。

FF_ret = pd.read_sql_query(
    sql = 'SELECT stock_id,`month` as ret_date,ret FROM monthret_to202503',
    con = engine).assign(ret_date = lambda x: x.ret_date.astype('str'))
FF_ret = pd.merge(FF_ret,Corresponding,on='ret_date',how='left',validate='m:1').dropna()

factor_cal = pd.merge(FF_ret,FF_material,on=['stock_id','year'],how='left').dropna()
factor_cal.head(5)

HML_data = factor_cal.assign(
    GMktCap = factor_cal.groupby(['ret_date','g_size','g_bm'],as_index = False,observed=True).MC.transform(lambda x: x.sum() ),
    weight = lambda x: x.MC / x.GMktCap,
    weight_ret = lambda x: x.weight * x.ret).\
    groupby(['ret_date','g_size','g_bm'],as_index = False,observed=True).weight_ret.agg([('Portret', lambda x: x.sum() )]).\
    assign(Port = lambda x: x.g_size.astype('str') +''+ x.g_bm.astype('str')).drop(columns = ['g_size','g_bm'])

RMW_data = factor_cal.assign(
    GMktCap = factor_cal.groupby(['ret_date','g_size','g_op'],as_index = False,observed=True).MC.transform(lambda x: x.sum() ),
    weight = lambda x: x.MC / x.GMktCap,
    weight_ret = lambda x: x.weight * x.ret).\
    groupby(['ret_date','g_size','g_op'],as_index = False,observed=True).weight_ret.agg([('Portret', lambda x: x.sum() )]).\
    assign(Port = lambda x: x.g_size.astype('str') +''+ x.g_op.astype('str')).drop(columns = ['g_size','g_op'])

CMA_data = factor_cal.assign(
    GMktCap = factor_cal.groupby(['ret_date','g_size','g_inv'],as_index = False,observed=True).MC.transform(lambda x: x.sum() ),
    weight = lambda x: x.MC / x.GMktCap,
    weight_ret = lambda x: x.weight * x.ret).\
    groupby(['ret_date','g_size','g_inv'],as_index = False,observed=True).weight_ret.agg([('Portret', lambda x: x.sum() )]).\
    assign(Port = lambda x: x.g_size.astype('str') +''+ x.g_inv.astype('str')).drop(columns = ['g_size','g_inv'])

FF5_long = pd.concat([HML_data, RMW_data,CMA_data])
FF5_wide = FF5_long.pivot(index='ret_date',columns='Port',values='Portret').reset_index().\
    assign(HML = lambda x:(x.s1bm3+x.s2bm3-x.s1bm1-x.s2bm1)/2,
           RMW = lambda x:(x.s1op3+x.s2op3-x.s1op1-x.s2op1)/2,
           CMA = lambda x:(x.s1inv1+x.s2inv1-x.s1inv3-x.s2inv3)/2,
           SMB3 = lambda x:((x.s1bm1+x.s1bm2+x.s1bm3)-
                             (x.s2bm1+x.s2bm2+x.s2bm3))/3,
           SMB5 = lambda x:((x.s1bm1+x.s1bm2+x.s1bm3+
                              x.s1op1+x.s1op2+x.s1op3+
                              x.s1inv1+x.s1inv2+x.s1inv3)-
                             (x.s2bm1+x.s2bm2+x.s2bm3+
                              x.s2op1+x.s2op2+x.s2op3+
                              x.s2inv1+x.s2inv2+x.s2inv3))/9)

TAIEX_index = pd.read_sql_query(
    sql = 'SELECT * FROM taiex',
    con = engine).assign(date = lambda x: x.date.astype('str'))
print(TAIEX_index.head(5))
#
TW10yearbond = pd.read_csv("C:/Users/e1155_l2c4ye3/Desktop/Py_practice/臺灣十年期國債債券報酬率歷史數據.csv")
print(TW10yearbond.head(5))

         date stock_id    price
0  2003-01-02    TAIEX  4524.92
1  2003-01-03    TAIEX  4626.36
2  2003-01-06    TAIEX  4690.26
3  2003-01-07    TAIEX  4701.48
4  2003-01-08    TAIEX  4837.35
          日期     收市     開市      高      低   升跌（%）
0   2025/4/8  1.525  1.524  1.525  1.524  -1.55%
1   2025/4/7  1.549  1.610  1.610  1.549  -3.79%
2   2025/4/2  1.610  1.610  1.610  1.610   0.00%
3   2025/4/1  1.610  1.610  1.610  1.610   0.00%
4  2025/3/31  1.610  1.630  1.630  1.610  -1.23%

TAIEX_mret = TAIEX_index.sort_values(['date']).assign(
    ret_date = lambda x: x.date.str.slice_replace(start = -2, repl = '01')).groupby('ret_date').tail(1).assign(
    ret = lambda x:(x.price-x.price.shift(1))/x.price)[['ret_date','ret']]
#
RFrate_month = TW10yearbond[['日期','收市']].rename(columns = {'日期':'date','收市':'RFrate'}).\
    assign(
    date = lambda x: pd.to_datetime(x.date,format='%Y/%m/%d').dt.strftime('%Y-%m-%d'),
    ret_date = lambda x: x.date.str.slice_replace(start = -2,repl = '01')).\
    sort_values('date').groupby('ret_date',as_index = False).tail(1).\
    assign(RFrate = lambda x: x.RFrate/(12*100))[['ret_date','RFrate']]#年利率轉月利率,去除百分比
MKTPR_wide = pd.merge(TAIEX_mret,RFrate_month,on='ret_date',how='left').dropna()
MKTPR_wide = MKTPR_wide.assign(
    MKTPR = lambda x: x.ret - x.RFrate)[['ret_date','MKTPR']]
#
FF5_wide = pd.merge(FF5_wide, MKTPR_wide,on='ret_date',how='left') 
FF5_wide.head(5)

FF_mom = pd.read_sql_query(
    sql = 'SELECT stock_id,month AS ret_date, ret  FROM monthret_to202503',
    con = engine).assign(ret_date = lambda x: x.ret_date.astype('str')).sort_values(['stock_id','ret_date']).dropna()

FF_mom = FF_mom.assign(mom = FF_mom.groupby('stock_id',as_index = False).ret.transform(
            lambda x: pd.Series([1+x.shift(i) for i in range(2,13)]).prod(skipna=False)) ).dropna()
FF_mom = FF_mom.assign(
    g_mom = FF_mom.groupby('ret_date').mom.transform(
        lambda x: pd.qcut(x, q = [0,0.3,0.7,1],labels=['mom1','mom2','mom3']) ))

MOM_mc = pd.read_sql_query(
    sql = 'SELECT date, stock_id, market_value as MC FROM marketcap',
    con = engine).assign(date = lambda x: x.date.astype('str'))
MOM_mc = MOM_mc.sort_values(['stock_id','date']).assign(
    mc_month = lambda x: x.date.str.slice_replace(start = -2,repl = '01')).\
    groupby(['stock_id','mc_month']).tail(1)[['stock_id','mc_month','MC']]
    
MOM_mc = MOM_mc.assign(g_size = MOM_mc.groupby('mc_month').MC.transform(
        lambda x: pd.qcut(x, q = [0,0.5,1],labels=['s1','s2']) ))

Corresponding = pd.DataFrame({
    'ret_date':pd.Series(pd.date_range(start = '1980-02-01',end='2026-02-01', freq = 'MS')).dt.date.astype('str'),
    'mc_month':pd.Series(pd.date_range(start = '1980-01-01',end='2026-01-01', freq = 'MS')).dt.date.astype('str')
    })
UMD_material = Corresponding.\
    merge(FF_mom,on = ['ret_date'],how = 'left').\
    merge(MOM_mc,on = ['stock_id','mc_month'],how = 'left').dropna()

UMD_long = UMD_material.assign(
    GMktCap = UMD_material.groupby(['ret_date','g_size','g_mom'],observed=True).MC.transform(lambda x: x.sum()),
    weight = lambda x: x.MC / x.GMktCap,
    weight_ret = lambda x: x.ret * x.weight).\
    groupby(['ret_date','g_size','g_mom'],as_index = False,observed=True).weight_ret.agg([('Portret',lambda x: x.sum())]).\
    assign(Port = lambda x: x.g_size.astype('str') +'_'+ x.g_mom.astype('str')).drop(columns = ['g_size','g_mom'])

UMD_wide = UMD_long.pivot(index = ['ret_date'],columns = 'Port',values = 'Portret').\
    assign(UMD = lambda x:(x.s1_mom3+x.s2_mom3-x.s1_mom1-x.s2_mom1)/2)

FF6_wide = FF5_wide.merge(UMD_wide,on = 'ret_date')
FF6_long = FF6_wide.melt(id_vars = 'ret_date',var_name = 'Port',value_name = 'Portret')

ls = %who_ls
vtr = [x for x in ls if x not in ['FF6_wide','FF6_long','pd','engine'] ]
for x in vtr:
    del globals()[x]
del ls,x,vtr

plotdf = FF6_long.loc[lambda x: x.Port.isin(['MKTPR','SMB5','HML','RMW','CMA','UMD'])]
plotdf = plotdf.assign(ret_date = lambda x: pd.to_datetime(x.ret_date),
                       Portret = lambda x: x.Portret*100)

import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.dates as mdates
plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei'] # 修改中文字體
plt.rcParams['axes.unicode_minus'] = False # 顯示負號

fig, ax = plt.subplots(figsize = (15,5))
# theme
plt.style.use('fivethirtyeight')

sns.lineplot(data=plotdf,
             x='ret_date',y='Portret',
             hue='Port',
             hue_order= ['MKTPR','SMB5','HML','RMW','CMA'],
             alpha=0.5,
             palette = ['#404040','#2eb82e','#ff0000','#3377ff','#cc6600'],
             linewidth = 1.5,
             ax= ax)
# grid
plt.grid(axis= 'both',linestyle  = '--')
# x axis label format
plt.xticks(ticks=plotdf.ret_date,rotation = 25)
plt.gca().xaxis.set_major_formatter(mdates.DateFormatter("%Y-%m")) 
plt.gca().xaxis.set_major_locator(mdates.MonthLocator(interval= 6)) 
# x axis range
plt.xlim(pd.to_datetime(plotdf.ret_date.min())-pd.DateOffset(months = 2),
         pd.to_datetime(plotdf.ret_date.max())+pd.DateOffset(months = 2)) 
# legend format
plt.legend(title="",
           ncol = 6,
           loc='center',
           bbox_to_anchor=(0.45, 1.05),
           fontsize = 14,
           frameon = False,
           alignment = 'left',
           columnspacing = 1.2,
           handletextpad = 0)
# title format
plt.title(label = 'Taiwan Stock Market Fama-French  5  Factors Monthly Return',
          fontdict= {'fontsize': 20},
          loc= 'center',
          y = 1.1)
# second title (subtitle) format
plt.title(label = 'Period: '+ 
          plotdf.ret_date.min().strftime(format = "%Y-%m-%d") + ' ~ ' +
          plotdf.ret_date.max().strftime(format = "%Y-%m-%d"),
          fontdict= {'fontsize': 14},
          loc= 'right',
          color = '#4d4d4d')
# axis title
plt.xlabel(xlabel = "")
plt.ylabel(ylabel = "Return (%)")

plt.show()

fig, ax = plt.subplots()
plt.hlines(y = 0.5, xmin = 0, xmax = 1, linestyles = 'solid')
plt.vlines(x = 0.5, ymin = 0, ymax = 1, linestyles = 'solid')
plt.text(x = 0.10, y = 0.70, s = ' Return\nTreemap',fontsize=15)
plt.text(x = 0.65, y = 0.70, s = '   Return\nDistribution',fontsize=15)
plt.text(x = 0.15, y = 0.15, s = 'Month\nReturn',fontsize=15)
plt.text(x = 0.65, y = 0.15, s = 'Cumulative\n   Return',fontsize=15)
plt.title(label = 'Fama-French Factors Dashboard for the Taiwan Stock Market')
plt.axis('off')
plt.show()

import pandas as pd
#Tableau_df = FF6_long.copy()
Tableau_df = FF6_long.sort_values(['Port','ret_date']).assign(
    cumret = lambda y: y.groupby(['Port'],as_index = False).Portret.transform(lambda x: ((x+1).cumprod())*100 ),
    Portret = lambda x: x.Portret * 100)

rank_dict = Tableau_df.sort_values(['ret_date']).groupby('Port',as_index = False).tail(1).assign(
    Portrank = lambda x: x.cumret.rank(ascending = False))[['Port','Portrank']]
rank_dict= dict(zip(rank_dict.Port, rank_dict.Portrank))
Tableau_df = Tableau_df.assign(Portrank = lambda x: x.Port.map(rank_dict))
#
MKT_dict = Tableau_df.loc[lambda x: x.Port == 'MKTPR'][['ret_date','cumret']]
MKT_dict = dict(zip(MKT_dict.ret_date,MKT_dict.cumret))
Tableau_df = Tableau_df.assign(MKT_cumret = lambda x: x.ret_date.map(MKT_dict))

#Tableau_df.to_excel('Tableau_df.xlsx')

incomestatement_items = pd.read_sql_query(
    sql = 'SELECT count(origin_name) AS counts,origin_name from incomestatement GROUP BY origin_name ORDER BY counts DESC',
    con = engine)
print(incomestatement_items.to_string())

    counts                 origin_name
0   153153                  本期淨利(淨損)\r
1   146710                      營業費用\r
2   144440                      營業成本\r
3   117895                  稅前淨利(淨損)\r
4   111480                      營業收入\r
5    79789                 基本每股盈餘（元）\r
6    78869                  本期綜合損益總額\r
7    78584            繼續營業單位本期淨利（淨損）\r
8    77767                  營業利益（損失）\r
9    77535                  營業外收入及支出\r
10   77487                 所得稅費用（利益）\r
11   72020                其他綜合損益（淨額）\r
12   67370                      非常損益\r
13   62959                營業毛利（毛損）淨額\r
14   58308            淨利（淨損）歸屬於母公司業主\r
15   48122                  營業毛利(毛損)\r
16   39419            淨利（淨損）歸屬於非控制權益\r
17   38796                    停業單位損益\r
18   35382                 所得稅(費用)利益\r
19   34776            繼續營業單位稅前淨利(淨損)\r
20   34043               會計原則變動累積影響數\r
21   34028                  營業外收入及利益\r
22   34028                  營業外費用及損失\r
23   33877             合併前非屬共同控制股權損益\r
24   33804                  營業淨利(淨損)\r
25   33804                    基本每股盈餘\r
26   33804              繼續營業單位淨利(淨損)\r
27   33804                聯屬公司間已實現利益\r
28   33804                聯屬公司間未實現利益\r
29   33334                   所得稅(利益)\r
30   33298                      營業利益\r
31   33205                      調整項目\r
32   33163                    停業部門損益\r
33   33095                     營業外收入\r
34   33095                      營業毛利\r
35   33095                     營業外支出\r
36   33095                      稅前純益\r
37   33095                     累積影響數\r
38   33095                      稅後純益\r
39   33089                 每股稅後盈餘(元)\r
40   13792            綜合損益總額歸屬於母公司業主\r
41    9458            綜合損益總額歸屬於非控制權益\r
42    7551                 其他收益及費損淨額\r
43    4756                 未實現銷貨（損）益\r
44    4280                 已實現銷貨（損）益\r
45    1812            本期其他綜合損益(稅後淨額)\r
46    1805                     利息淨收益\r
47    1397        綜合損益總額歸屬於共同控制下前手權益\r
48    1344        淨利（淨損）歸屬於共同控制下前手權益\r
49    1299                   利息以外淨收益\r
50    1169                本期稅後淨利（淨損）\r
51    1032                       淨收益\r
52     902                繼續營業單位稅前損益\r
53     819              本期綜合損益總額(稅後)\r
54     686          呆帳費用、承諾及保證責任準備提存\r
55     636                  非常損益(稅後)\r
56     636          會計原則變動之累積影響數(稅後)\r
57     636                      呆帳費用\r
58     636                停業單位損益(稅後)\r
59     506                   利息以外淨損益\r
60     506          繼續營業單位本期稅後淨利（淨損）\r
61     506                其他綜合損益（稅後）\r
62     500                    營業收入淨額\r
63     466                 保險負債準備淨變動\r
64     464                     營業外損益\r
65     464                     支出及費用\r
66     464                        收益\r
67     453              其他綜合損益(稅後淨額)\r
68     441            繼續營業單位稅前純益(純損)\r
69     406       呆帳費用及保證責任準備提存(各項提存)\r
70     374                 所得稅利益(費用)\r
71     369                     合併總損益\r
72     369          繼續營業單位稅後合併淨利(淨損)\r
73     369          繼續營業單位稅前合併淨利(淨損)\r
74     369          收回(提存)各項保險責任準備淨額\r
75     369             合併總損益歸屬予母公司股東\r
76     369              合併總損益歸屬予少數股權\r
77     343                      每股盈餘\r
78     285            繼續營業單位本期純益（純損）\r
79     280             呆帳費用及保證責任準備提存\r
80     267                    手續費淨收益\r
81     267            繼續營業單位稅後淨利(淨損)\r
82     239                      本期損益\r
83     232              會計原則變動之累積影響數\r
84     231  生物資產當期公允價值減出售成本之變動利益（損失）\r
85     207                        收入\r
86     199                    其他綜合損益\r
87     199                        支出\r
88     181       原始認列生物資產及農產品之利益（損失）\r
89     156            繼續營業單位稅後純益(純損)\r
90     152                少數股權淨利(損失)\r
91     143             淨利（損）歸屬於母公司業主\r
92     136            繼續營業部門稅前淨利(淨損)\r
93     136            繼續營業部門稅後淨利(淨損)\r
94     117         合併前非屬共同控制股權綜合損益淨額\r
95     101             淨利（損）歸屬於非控制權益\r
96      12         淨利（損）歸屬於共同控制下前手權益\r
97       8                        費損\r

	date	stock_id	market_value
0	2004-02-12	1101	47617612848
1	2004-02-13	1101	50927928180
2	2004-02-16	1101	53474324589
3	2004-02-17	1101	53474324589
4	2004-02-18	1101	51691847103

	date	stock_id	type	value	origin_name
0	2012-03-31	1101	TotalAssets	2.710318e+11	資產總額\r
1	2012-03-31	1101	Equity	1.414830e+11	權益總額\r
2	2012-06-30	1101	TotalAssets	2.734726e+11	資產總額\r
3	2012-06-30	1101	Equity	1.334564e+11	權益總額\r
4	2012-09-30	1101	TotalAssets	2.687747e+11	資產總額\r

	ret_date	s1bm1	s1bm2	s1bm3	s1inv1	s1inv2	s1inv3	s1op1	s1op2	s1op3	...	s2inv3	s2op1	s2op2	s2op3	HML	RMW	CMA	SMB3	SMB5	MKTPR
0	2014-07-01	-0.026396	-0.013806	0.011818	-0.016122	-0.003636	-0.005209	-0.007376	-0.001083	-0.025156	...	-0.006655	-0.003731	0.011595	-0.003502	0.035731	-0.008775	0.001537	-0.019694	-0.014931	0.007662
1	2014-08-01	-0.036342	-0.015890	0.001389	-0.020354	-0.009311	-0.017363	-0.030037	-0.002780	-0.017835	...	0.022984	-0.025665	0.006190	0.027434	0.022899	0.032650	-0.007127	-0.035823	-0.028553	0.020245
2	2014-09-01	-0.029662	-0.019099	-0.032586	-0.031595	-0.026148	-0.018325	-0.027614	-0.019153	-0.038611	...	-0.047579	-0.026829	-0.047688	-0.048998	-0.009584	-0.016583	-0.014112	0.023747	0.020627	-0.052961
3	2014-10-01	-0.070788	-0.067014	-0.056872	-0.072808	-0.064529	-0.052790	-0.067993	-0.064383	-0.059546	...	0.008625	-0.042162	-0.021088	0.011748	0.001793	0.031178	-0.022846	-0.058993	-0.053728	-0.000398
4	2014-11-01	0.013760	0.004767	-0.004190	0.002906	0.000281	0.011716	-0.004152	0.006470	0.011183	...	0.037532	-0.000578	0.008069	0.034810	-0.021055	0.025361	-0.015345	-0.012022	-0.012091	0.021794

$\rm{[Python]}$$\rm{[Tableau]}$ 台股 $\rm{Fama\;French\; 5 \;Factor}$¶

$\rm{周育呈}$ e11559560532@gmail.com ¶

Table of Contents¶

前言¶

因子計算方式¶

計算流程¶

$\rm{Fama}$ $\rm{factor}$¶

$\rm{Momentum}$ $\rm{factor}$¶

$\rm{seaborn}$ 視覺化¶

Tableau 資料前處理¶

Appendix¶

	date	stock_id	type	value	origin_name
0	1990-03-31	1101	CostOfGoodsSold	2.503496e+09	營業成本\r
1	1990-03-31	1101	OperatingExpenses	1.127620e+08	營業費用\r
2	1990-06-30	1101	CostOfGoodsSold	2.559507e+09	營業成本\r
3	1990-06-30	1101	OperatingExpenses	1.260250e+08	營業費用\r
4	1990-09-30	1101	CostOfGoodsSold	2.668818e+09	營業成本\r

	year	stock_id	MC	g_size	g_bm	g_op	g_inv
1502	2013-12-01	1101	1.707631e+11	s2	bm2	op3	inv2
3070	2014-12-01	1101	1.602404e+11	s2	bm3	op3	inv2
4723	2015-12-01	1101	1.007964e+11	s2	bm3	op2	inv2
6406	2016-12-01	1101	1.297800e+11	s2	bm3	op2	inv1
8125	2017-12-01	1101	1.547853e+11	s2	bm2	op2	inv2

	ret_date	year
0	2001-07-01	2000-12-01
1	2001-08-01	2000-12-01
2	2001-09-01	2000-12-01
3	2001-10-01	2000-12-01
4	2001-11-01	2000-12-01
5	2001-12-01	2000-12-01
6	2002-01-01	2000-12-01
7	2002-02-01	2000-12-01
8	2002-03-01	2000-12-01
9	2002-04-01	2000-12-01
10	2002-05-01	2000-12-01
11	2002-06-01	2000-12-01
12	2002-07-01	2001-12-01

	stock_id	ret_date	ret	year	MC	g_size	g_bm	g_op	g_inv
156	1101	2014-07-01	0.044147	2013-12-01	1.707631e+11	s2	bm2	op3	inv2
157	1101	2014-08-01	0.059382	2013-12-01	1.707631e+11	s2	bm2	op3	inv2
158	1101	2014-09-01	-0.046188	2013-12-01	1.707631e+11	s2	bm2	op3	inv2
159	1101	2014-10-01	0.025388	2013-12-01	1.707631e+11	s2	bm2	op3	inv2
160	1101	2014-11-01	-0.021550	2013-12-01	1.707631e+11	s2	bm2	op3	inv2

$\rm{[Python]}$$\rm{[Tableau]}$ 台股 $\rm{Fama\;French\; 5 \;Factor}$¶

$\rm{周育呈}$ e11559560532@gmail.com¶

Table of Contents¶

前言¶

因子計算方式¶

計算流程¶

$\rm{Fama}$ $\rm{factor}$¶

$\rm{Momentum}$ $\rm{factor}$¶

$\rm{seaborn}$ 視覺化¶

Tableau 資料前處理¶

Appendix¶

$\rm{周育呈}$ e11559560532@gmail.com ¶