среда, 18 апреля 2018 г.

Estratégias comerciais de séries temporais


Negociação quantitativa.


Investimentos quantitativos e idéias comerciais, pesquisas e análises.


Quinta-feira, 02 de julho de 2018.


Análise de séries temporais e lacunas de dados.


Embora a magnitude absoluta dos retornos ao longo de um dia de semana seja semelhante a isso durante um fim de semana, os retornos médios são muito mais positivos nos dias da semana. Observe também que a curtose dos retornos é quase dobrada nos finais de semana. (Riscos de cauda muito maiores nos fins de semana com retornos muito menos esperados: por que alguém poderia ocupar uma posição nos fins de semana?) Então, se nós executamos qualquer tipo de análise de séries de tempo em dados diários, nós estamos ajustando um modelo em dados com estatísticas heterogêneas não vai funcionar bem.


Eu anteriormente relatei um modelo de estoque fundamental proposto por Lyle e Wang usando uma combinação linear de apenas dois fundamentos da empresa e # 8213; relação livro-mercado e retorno sobre o patrimônio líquido. Professor Lyle publicou uma nova versão deste modelo. Charles-Albert Lehalle, Jean-Philippe Bouchaud e Paul Besson informaram que "o preço intradiário está mais alinhado com as ordens limite assinadas (reabastecimento de pedidos cumulativos) em vez de ordens de mercado assinadas (desequilíbrio cumulativo da ordem), mesmo que o desequilíbrio da ordem seja capaz de prever curto movimentos de preços a prazo ". Ponta do chapéu: Mattia Manzoni. (Eu não tenho um link para o documento original: por favor, peça a Mattia para isso!) Um novo concurso de investimento para ajudá-lo a aumentar o capital está disponível no hedgefol. io. Desfrute de uma festa de verão ao ar livre com companheiros de quentes que beneficiem a Fundação do Centro de Queimadores de Bombeiros de Nova York na terça-feira, 14 de julho, com ótima comida e bebidas legais em um terraço com vista para Manhattan. Por favor, RSVP se junte a gestores de fundos quant, comerciantes sistemáticos, comerciantes algorítmicos, quants e tubarões de alta freqüência para uma excelente noite. Este é um evento complementar (as doações são bem-vindas).


77 comentários:


Estou perdendo como você pode ter um retorno médio para fins de semana quando o mercado está fechado.


Obrigado Ernie pela sua menção no blog, estou realmente entusiasmado com isso.


Considere um problema de dados em falta que pode ser facilmente resolvido com o filtro Kalman.


Por volta de um fim de semana, quis dizer o retorno do encerramento do dia de negociação antes do fim de semana, até o final do dia de negociação após o fim de semana, no caso da SPY. Para retornos de AUDCAD de 15 minutos, o retorno de fim de semana significa o retorno de 5:00 da tarde na sexta-feira, para 5:15 pm ET no domingo, quando o mercado se reabre.


Obrigado pelo link e explicação!


Você pode explicar por que o filtro de Kalman pode resolver o problema de dados em falta?


Você fez a análise para a SPY no mesmo período que citei? Dessa forma, podemos comparar e descobrir se qualquer um dos nossos cálculos ou dados tem erros.


Sim, os futuros da Es e da VX estão negativamente correlacionados e descrevi uma estratégia de negociação de pares baseada em momentum no meu livro Algorithmic Trading p.143.


Interessante que você não encontrou tal sazonalidade em toda a história da SPY.


Eu sei que os pesquisadores acadêmicos gostam de usar o maior tempo possível ao redigir papéis (30 anos no mínimo?), Mas eu não concordo com essa abordagem.


Se você achar que o retorno de sexta-feira também é significativamente (estatisticamente falando) diferente da média, isso indicaria que há um efeito sazonal para as sextas e também deve ser tratado separadamente de outros dias.


Concordo com os seus pontos que o contexto das nossas discussões é importante.


Ansioso para os resultados de sua nova pesquisa!


Nós negociamos 1 parcela de y, e partes beta de x.


O uso de taxa de cobertura não garante que o desempenho seja melhor do que o dólar neutro ou a ponderação da volatilidade. No entanto, os outros métodos de cobertura não são da estacionaridade do spread. Isto é, mesmo que uma propagação seja verdadeiramente estacionária, não há garantia de que os outros métodos sejam lucrativos.


Obrigado pelo link para o seu estudo. Conclusão interessante: vou estudá-lo em alguns detalhes.


Tenho algumas perguntas, espero que você possa me ajudar a resolvê-las:


Se o retorno absoluto é simplesmente a soma cumulativa dos retornos individuais da série, recebo algo como 70% (não bp) para o & # 8220; dia da semana e # 8221; e -14% para fins de semana.


Também o retorno médio, é a média da série dos retornos ?. Caso seja, eu estou tendo os 0,3 pb para o & # 8220; dias de semana & # 8221; mas -0.3bp para & # 8220; fins de semana e # 8221; não o 3.9.


Eu baixei a data da Bloomberg n caso possamos fontes diferentes; No entanto, eu não acredito que seja o problema.


1) O retorno absoluto médio significa a média (ao longo de vários anos) do valor absoluto dos retornos diários. Esta é uma maneira típica de calcular a volatilidade intradía (e não o desvio padrão dos retornos), mas para a consistência, eu também estou usando isso para calcular as volatilidades diárias aqui. Não é igual a nenhuma das definições que você sugeriu.


Eu diria que um Sharpe de pelo menos 1 é necessário para indicar significância estatística, a menos que você tenha fortes razões fundamentais para acreditar que a estratégia deve funcionar, apesar das poucas evidências estatísticas.


A maioria dos meus clientes e associados do Reino Unido e da Europa estão negociando ações americanas. Não vejo por que você só deve negociar ações da HK.


Se a taxa de juros dos EUA aumentar, certamente o USD aumentará, já que não esperamos que o BCE da BOJ aumente as taxas.


Não tenho idéia - eu não sou um economista!


Você pode proteger os riscos cambiais mais barato usando opções. Veja o novo livro & quot; FX Option Performance & quot; no topo da minha lista de livros recomendados na barra lateral direita.


CAGR = taxa de crescimento anualizado composto. Você pode calcular o retorno cumulativo combinado de sua estratégia, levando os retornos diários r_i (mais precisamente, os retornos diários de marca para mercado) e multiplicando-os: R = (1 + r_1) * (1 + r_2) *. * (1 + r_N) -1. Então anualize-o por CAGR = (1 + R) ^ (252 / N) -1, onde 252 é o número de dias de negociação em um ano.


O rendimento diário r_i é o P & amp; L diário (P & amp; L de mark-to-market, o que significa que inclui P & amp; Ls realizados e não realizados), dividido pelo NAV da sua conta. Naturalmente, o NAV inclui dinheiro.


É um modelo AR com um lookback muito longo, como AR (288).


Observe que esta curva cumPL foi gerada assumindo execuções de citações médias. Naturalmente, na negociação real, talvez tenhamos que pagar o spread bid-ask muitas vezes.


As estratégias de mercado de alta freqüência muitas vezes podem ter um alto índice de Sharpe, como podem as estratégias de arbitragem de latência.


Ao encontrar o melhor ajuste p em AR (p), isso não está superando os dados (snooping de dados)? Você menciona AR (288), como você chega em 288?


Quando você testar AR (288) no conjunto de teste e você confirma a validade, não é possível que esse teste fora da amostra se torne na amostra, porque você usou para verificar e selecionar o modelo?


O valor de p é encontrado usando a estimativa de máxima probabilidade no conjunto de treinamento. Não existe um viés de snooping de dados quando você encontrar o parâmetro ideal no conjunto de treinamento e confirmar que ele funciona bem no conjunto de teste. O único caso em que ocorreria o viés de bisbilhoto de dados é que você encontra o p ideal no conjunto de treinamento, mas o modelo ainda não funciona no conjunto de testes. Então, você muda o modelo de alguma outra forma e usa o conjunto de treinamento para re-otimizar os parâmetros.


O banco de dados Sharadar em Quandl fornece uma quantidade limitada de dados fundamentais gratuitos.


Em geral, essa descontinuidade (incluindo os intervalos nocturnos para cima ou para baixo) está me causando dor de cabeça. Eu até pensei em procurar modelos de saltos de volatilidade, mas eles parecem muito complicados de serem robustos e a volatilidade pode se comportar de forma diferente em relação aos preços.


Obrigado por compartilhar sua experiência com seu modelo. Na verdade, é muito difícil ter um modelo intradía que, no entanto, mantenha posições durante a noite ou mesmo durante o fim de semana. O óleo e a água não se misturam bem.


Nenhum dado no IB foi dividido / ajustado aos dividendos.


E para o intervalo do fim de semana, podemos apenas conectar o fechamento de sexta-feira com a próxima segunda-feira aberta e ajustar para trás os outros dias da semana de forma semelhante, e isso pode funcionar para estratégias que não ocupam a posição durante o fim de semana?


Mesmo para uma estratégia intradía, você achará que o modelo fará algumas previsões errôneas para as primeiras barras de um dia. Só porque você enganou o modelo para ignorar a lacuna não significa que não há diferença nos preços que afetariam as previsões.


Nós comercializamos apenas FX local, com alavancagem de 10x.


Para aqueles que estão fazendo negociações de pares com futuros de e-mini, há um blog interessante que mostra os sinais reais fora de amostra (bem como o tempo de mercado por trás da negociação de pares):


Na verdade eu estou pesquisando sobre o seu e-mail para enviar-lhe esta mensagem.


Eu sinto muito por escrevê-lo aqui, mas não sei como posso contatar você & gt; & gt; & gt;


Eu escrevi um artigo sobre o TRADING LIFE STYLE.


e na verdade eu fui apresentado a você para todos os comerciantes árabes como um exemplo para o comerciante ao vivo e todas as suas atividades.


Desejo que você verifique isso.


desde já, obrigado.


Eu não tentei isso mesmo, mas certamente vale a pena procurar combinar o GARCH e o ARIMA.


Isso ocorre porque há um intervalo de 15M na negociação diária de FX, das 17: 00-17: 15 ET. O uso de dados 15M evita ter que lidar com essa lacuna.


Eu fiz isso antes, e encontrei uma ligeira melhoria - mas foi quando eu era jovem e tola. Eu pretendo tomar outra facada nisso em breve.


Oi, Ernie. Nos conhecemos no Systematic Trading Meetup em Londres.


Tenho um novo blog para discutir estratégias de negociação sistemática e desenvolvimento de sistemas. Por favor dê uma olhada. Espero fazer posts bastante frequentes.


Obrigado pelo link, Nick!


Obrigado pelo link, Nick!


Você acha que o FX é vulnerável a algum tipo de eventos do Flash Crash?


Nossa estratégia FX é uma estratégia de reversão média e, portanto, baixa volatilidade. Então, naturalmente, esperamos algumas perdas quando a volatilidade for apanhada. Foi em torno de 2,5% em agosto. No entanto, nosso fundo está acima de mais de 1%, uma vez que esta estratégia está coberta com uma estratégia de futuros de volatilidade longa, que se realizou excepcionalmente bem.


Não, estratégias de longa volatilidade, como nossa estratégia futura, geralmente são baseadas em momentos.


A maioria das estratégias de negociação de pares são significativas e, portanto, baixa volatilidade.


Eu discuti esta questão no Capítulo 1 da Algorithmic Trading. Assumindo a distribuição Gaussiana dos retornos, precisamos de um valor p de 5% se quisermos ter uma relação Sharpe de 1,6 ou superior. Claro que ainda é possível ganhar dinheiro com um baixo índice de Sharpe, mas a volatilidade dos retornos será alta.


QuantStart.


Junte-se ao portal de membros privados da Quantcademy que atende à comunidade de comerciantes de varejo de varejo em rápido crescimento. Você encontrará um grupo bem informado de mentalistas quant pronto para responder suas perguntas comerciais mais importantes.


Confira meu ebook sobre o comércio de quant, onde eu ensino você como criar estratégias de negociação sistemáticas lucrativas com ferramentas Python, desde o início.


Dê uma olhada no meu novo ebook sobre estratégias de negociação avançadas usando análise de séries temporais, aprendizado de máquina e estatísticas bayesianas, com Python e R.


Por Michael Halls-Moore em 23 de junho de 2018.


Ao longo dos últimos anos, analisamos várias ferramentas para nos ajudar a identificar padrões exploráveis ​​nos preços dos ativos. Em particular, consideramos a econometria básica, a aprendizagem de máquinas estatísticas e as estatísticas bayesianas.


Embora essas sejam todas ferramentas modernas para a análise de dados, a grande maioria da modelagem de ativos na indústria ainda usa análises estatísticas de séries temporais. Neste artigo, vamos examinar a análise de séries de tempo, delinear seu escopo e aprender como podemos aplicar as técnicas a várias freqüências de dados financeiros.


O que é a análise da série de tempo?


Em primeiro lugar, uma série de tempo é definida como uma quantidade que é medida sequencialmente no tempo ao longo de algum intervalo.


Na sua forma mais ampla, a análise de séries temporais consiste em inferir o que aconteceu com uma série de pontos de dados no passado e tentar prever o que acontecerá com o futuro.


No entanto, vamos adotar uma abordagem estatística quantitativa para as séries temporais, assumindo que nossas séries temporais são realizações de seqüências de variáveis ​​aleatórias. Ou seja, vamos assumir que existe algum processo gerador subjacente para nossas séries temporais com base em uma ou mais distribuições estatísticas a partir das quais essas variáveis ​​são desenhadas.


A análise de séries temporais tenta entender o passado e prever o futuro.


Essa seqüência de variáveis ​​aleatórias é conhecida como um processo estocástico discreto (DTSP). Na negociação quantitativa, estamos preocupados em tentar ajustar modelos estatísticos a esses DTSPs para inferir relações subjacentes entre séries ou prever valores futuros para gerar sinais comerciais.


As séries temporais em geral, incluindo as que estão fora do mundo financeiro, geralmente contêm os seguintes recursos:


Tendências - Uma tendência é um movimento direcional consistente em uma série temporal. Essas tendências serão deterministas ou estocásticas. O primeiro nos permite fornecer um raciocínio subjacente à tendência, enquanto o último é uma característica aleatória de uma série que provavelmente não seríamos capazes de explicar. As tendências aparecem frequentemente em séries financeiras, em particular os preços de commodities, e muitos fundos do Consultor de Negociação de Mercadorias (CTA) usam modelos de identificação de tendência sofisticados em seus algoritmos de negociação. Variação sazonal - Muitas séries temporais contêm variações sazonais. Isto é particularmente verdadeiro em séries que representam vendas comerciais ou níveis climáticos. Em finanças quantitativas, muitas vezes vemos variações sazonais em commodities, particularmente aquelas relacionadas a períodos de crescimento ou variação anual de temperatura (como gás natural). Dependência serial - Uma das características mais importantes das séries temporais, particularmente as séries financeiras, é a correlação serial. Isso ocorre quando as observações das séries temporais que estão próximas entre si no tempo tendem a ser correlacionadas. O agrupamento de volatilidade é um aspecto da correlação serial que é particularmente importante no comércio quantitativo.


Como podemos aplicar a análise de séries temporais em finanças quantitativas?


Nosso objetivo como pesquisadores quantitativos é identificar tendências, variações sazonais e correlação usando métodos estatísticos de séries temporais e, em última análise, gerar sinais comerciais ou filtros baseados em inferências ou previsões.


Nossa abordagem será:


Previsão e previsão de valores futuros - Para negociar com sucesso, precisamos prever com precisão os preços dos ativos futuros, pelo menos em um sentido estatístico. Simular séries - Uma vez que identificamos as propriedades estatísticas das séries temporais financeiras, podemos usá-las para gerar simulações de cenários futuros. Isso nos permite estimar o número de negócios, os custos de negociação esperados, o perfil de retorno esperado, o investimento técnico e financeiro necessário na infra-estrutura e, portanto, o perfil de risco e a rentabilidade de uma determinada estratégia ou portfólio. Relacionamentos Infer - A identificação de relações entre séries temporais e outros valores quantitativos nos permite aprimorar nossos sinais comerciais através de mecanismos de filtração. Por exemplo, se podemos inferir como o spread em um par de câmbio varia de acordo com o volume de lance / pedido, podemos filtrar quaisquer negociações prospectivas que possam ocorrer em um período em que prevemos um amplo spread para reduzir os custos de transação.


Além disso, podemos aplicar testes estatísticos padrão (clássicos / freqüentadores ou bayesianos) a nossos modelos de séries temporais para justificar certos comportamentos, como a mudança de regime nos mercados de ações.


Software de análise de séries temporais.


Até o momento, utilizamos quase exclusivamente o C ++ e o Python para a implementação da nossa estratégia comercial. Ambos os idiomas são "ambientes de primeira classe" para escrever uma stack de troca inteira. Ambos contêm muitas bibliotecas e permitem uma construção "de ponta a ponta" de um sistema comercial exclusivamente dentro desse idioma.


Infelizmente, C ++ e Python não possuem extensas bibliotecas estatísticas. Esta é uma das suas deficiências. Por esse motivo, usaremos o ambiente estatístico R como meio de realizar pesquisas em séries temporais. R é bem adaptado para o trabalho devido à disponibilidade de bibliotecas de séries temporais, métodos estatísticos e capacidades de traçado direto.


Aprenderemos R em uma forma de resolução de problemas, pelo que novos comandos e sintaxe serão introduzidos conforme necessário. Felizmente, existem muitos tutoriais extremamente úteis para o R availabile na internet e vou apontá-los enquanto passamos pela sequência de artigos de análise de séries temporais.


Mapa de análise da série de tempo QuantStart.


Os artigos anteriores até à data sobre os temas de aprendizagem estatística, econometria e análise bayesiana, têm sido principalmente de natureza introdutória e não consideraram aplicações de tais técnicas para informações de preços modernas e de alta freqüência.


Para aplicar algumas das técnicas acima para dados de freqüência mais alta, precisamos de um quadro matemático para unificar nossa pesquisa. A análise de séries temporais fornece essa unificação e nos permite discutir modelos separados dentro de uma configuração estatística.


Eventualmente, utilizaremos ferramentas Bayesianas e técnicas de aprendizado de máquinas em conjunto com os seguintes métodos para prever o nível e a direção dos preços, agir como filtros e determinar "mudança de regime", ou seja, determinar quando nossas séries temporais mudaram seu comportamento estatístico subjacente.


O nosso roteiro da série temporal é o seguinte. Cada um dos tópicos abaixo formará seu próprio artigo ou conjunto de artigos. Uma vez que examinamos esses métodos em profundidade, estaremos em condições de criar alguns modelos modernos sofisticados para examinar dados de alta freqüência.


Introdução à Série de Tempo - Este artigo descreve a área de análise de séries temporais, seu escopo e como ele pode ser aplicado a dados financeiros. Correlação - Um aspecto absolutamente fundamental das séries temporais de modelagem é o conceito de correlação serial. Nós definiremos e descreveremos uma das maiores armadilhas da análise de séries temporais, a saber, que "a correlação não implica causalidade". Previsão - Nesta seção, vamos considerar o conceito de previsão, que está fazendo previsões de direção futura ou nível para uma série de tempo particular e como ela é realizada na prática. Modelos estocásticos - Passamos algum tempo a considerar modelos estocásticos no campo de preços de opções no site, nomeadamente com Geometric Brownian Motion e Stochastic Volatility. Vamos olhar para outros modelos, incluindo o ruído branco e modelos autorregressivos. Regressão - Quando temos tendências determinísticas (ao contrário de estocásticas) nos dados, podemos justificar sua extrapolação usando modelos de regressão. Vamos considerar a regressão linear e não-linear, e contabilizar a correlação em série. Modelos estacionários - Modelos estacionários assumem que as propriedades estatísticas (ou seja, a média e variância) das séries são constantes no tempo. Podemos usar modelos de média móvel (MA), além de combiná-los com modelos autorregressivos para formar modelos ARMA. Modelos não estacionários - Muitas séries temporais financeiras não são estacionárias, ou seja, elas têm variável média e variância. Em particular, os preços dos ativos geralmente têm períodos de alta volatilidade. Para essas séries, precisamos usar modelos não estacionários, como ARIMA, ARCH e GARCH. Modelagem multivariada - Nós consideramos modelos multivariados no QuantStart no passado, ou seja, quando consideramos pares de ações de reversão média. Nesta seção, vamos definir mais rigorosamente a cointegração e analisar mais testes para isso. Também consideraremos os modelos vetoriais autorregressivos (VAR) [não devem ser confundidos com Value-at-Risk!]. Modelos de espaço-estado - State Space Modeling empresta uma longa história de teoria de controle moderna usada na engenharia para nos permitir modelar séries temporais com parâmetros que variam rapidamente (como a variável $ \ beta $ slope entre dois ativos cointegrados em uma regressão linear ). Em particular, consideraremos o famoso Filtro de Kalman e o Modelo de Markov Oculto. Este será um dos principais usos da análise bayesiana em séries temporais.


Como isso se relaciona com outros artigos estatísticos QuantStart?


Meu objetivo com o QuantStart sempre foi tentar esboçar o quadro matemático e estatístico para análise quantitativa e negociação quantitativa, desde o básico até as técnicas modernas mais avançadas.


Até o momento, passamos a maior parte do tempo em técnicas introdutórias e intermediárias. No entanto, agora vamos dirigir nossa atenção para as técnicas avançadas recentes utilizadas em empresas quantitativas.


Isso não só ajudará aqueles que desejam ganhar uma carreira na indústria, mas também dará aos comerciantes de varejo quantitativos entre vocês um conjunto de ferramentas muito mais amplo, bem como uma abordagem unificadora para negociação.


Tendo trabalhado na indústria anteriormente, posso afirmar com certeza que uma fração substancial de profissionais de fundos quantitativos usa técnicas muito sofisticadas para "caçar alfa".


No entanto, muitas dessas empresas são tão grandes que não estão interessadas em estratégias de "restrição de capacidade", ou seja, aquelas que não são escaláveis ​​acima de 1-2 milhões de dólares. Como varejistas, se pudermos aplicar uma estrutura de negociação sofisticada a essas áreas, podemos alcançar rentabilidade a longo prazo.


Nós eventualmente combinaremos nossos artigos sobre a análise de séries temporais, com a abordagem bayesiana para teste de hipóteses e seleção de modelos, juntamente com o código otimizado de C ++, R e Python, para produzir modelos de séries temporais não-lineares e não estacionários que podem trocar em alta - freqüência.


Agora que o software QSForex se aproximou da viabilidade para backtesting de alta freqüência de múltiplos pares de moedas, temos uma estrutura pré-fabricada para testar esses modelos, pelo menos nos mercados cambiais.


O próximo artigo da série discutirá a correlação e por que é um dos aspectos mais fundamentais da análise das séries temporais.


Apenas iniciando o comércio quantitativo?


3 razões para se inscrever para a lista de e-mails QuantStart:


1. Quant Trading Lessons.


Você terá acesso instantâneo a um curso de e-mail gratuito de 10 partes, repleto de sugestões e dicas para ajudá-lo a começar a negociação quantitativa!


2. Todo o conteúdo mais recente.


Todas as semanas, vou enviar-lhe um envoltório de todas as atividades no QuantStart para que você nunca mais perca uma postagem novamente.


Real, dicas de negociação viáveis, sem tonturas.


QuantStart.


Junte-se ao portal de membros privados da Quantcademy que atende à comunidade de comerciantes de varejo de varejo em rápido crescimento. Você encontrará um grupo bem informado de mentalistas quant pronto para responder suas perguntas comerciais mais importantes.


Confira meu ebook sobre o comércio de quant, onde eu ensino você como criar estratégias de negociação sistemáticas lucrativas com ferramentas Python, desde o início.


Dê uma olhada no meu novo ebook sobre estratégias de negociação avançadas usando análise de séries temporais, aprendizado de máquina e estatísticas bayesianas, com Python e R.


Por Michael Halls-Moore em 8 de janeiro de 2017.


Nesta série de artigos, vamos criar um processo estatisticamente robusto para a previsão de séries temporais financeiras. Essas previsões constituirão a base de um grupo de estratégias de negociação automatizadas. O primeiro artigo da série discutirá a abordagem de modelagem e um grupo de algoritmos de classificação que nos permitirão prever a direção do mercado.


Dentro desses artigos, estaremos fazendo uso do scikit-learn, uma biblioteca de aprendizagem de máquinas para Python. Scikit-learn contém implementações de muitas técnicas de aprendizagem de máquinas. Não só isso nos poupa muito tempo na implementação do nosso próprio, mas minimiza o risco de erros introduzidos pelo nosso próprio código e permite uma verificação adicional em relação a bibliotecas escritas em outros pacotes, como R. Isso nos dá uma grande quantidade de confiança se precisarmos criar nossa própria implementação personalizada (por razões de velocidade de execução, digamos).


Processo para Previsão.


Uma explicação detalhada do campo da aprendizagem de máquinas estatísticas está além deste artigo. Para utilizar técnicas como Regressão Logística, Análise Discriminante Linear e Análise Discriminante Quadratic, precisamos descrever alguns conceitos básicos.


Técnicas de aprendizagem supervisionadas.


As técnicas de aprendizagem supervisionadas envolvem um conjunto de tuplas conhecidas $ (x_i, y_i) $, $ i \ in \ $, com $ x_i $ representando as variáveis ​​predictoras (como retornos do mercado de ações remanescentes ou volume negociado) e $ y_i $ representando o associado variáveis ​​de resposta / observação (como o retorno do mercado de ações hoje). Nessa situação, estamos interessados ​​em prever. Dadas as futuras variáveis ​​preditoras, desejamos estimar as respostas desses preditores. Isso é contrário à inferência em que estamos mais interessados ​​na relação entre as variáveis.


Todos os algoritmos que utilizamos neste artigo, juntamente com muitos outros que empregaremos no futuro, são do domínio de aprendizagem supervisionado.


Medindo Precisão de Previsão.


A classe particular de métodos que nos interessa envolve a classificação binária. Ou seja, tentaremos alocar a porcentagem de retorno para um determinado dia em dois baldes: "Up" ou "Down". Num previsão de produção, estaríamos muito preocupados com a magnitude dessa previsão e com os desvios da predição a partir do valor real.


Nesses casos, podemos usar o erro de Mean-Squared, Mean Absolute Deviation e Root-Mean-Squared Error para fornecer uma estimativa de precisão de previsão. A literatura fornece muitos outros exemplos de medidas de precisão de previsão.


Neste caso, só nos preocuparemos com a taxa de sucesso, que é simplesmente a porcentagem de vezes que o provisorista alcançou uma previsão precisa (ou seja, quando o dia acabou e vice-versa). Em exemplos posteriores, usaremos uma matriz de confusão para determinar o desempenho de previsão em uma classe por classe. Além disso, calcularemos os valores acima mencionados e os incorporaremos ao nosso processo de pesquisa comercial.


Fatores de previsão.


Uma metodologia de previsão é tão boa quanto os fatores escolhidos como preditores. Há um número impressionante de fatores potenciais a serem escolhidos quando prevêem o retorno do índice de mercado de ações. Neste artigo, vamos restringir os fatores aos atrasos de tempo dos retornos percentuais atuais. Isso não é porque eles são os melhores preditores, em vez disso é porque é direto demonstrar o processo de previsão em um conjunto de dados facilmente obtido.


A escolha do fator de previsão é extremamente importante, se não o componente mais importante, do pré-programador. Mesmo técnicas simples de aprendizagem de máquina produzirão bons resultados em fatores bem escolhidos. Note que o inverso não é frequentemente o caso. "Lançar um algoritmo em um problema" geralmente levará à má precisão de previsão.


Para este provisorista especificamente, escolhi o primeiro e o segundo tempo de atraso da porcentagem de retorno como preditores para a direção atual do mercado de ações. Esta é uma escolha relativamente arbitrária e há muitos marcos para modificação, por exemplo, adicionando atrasos adicionais ou o volume de ações negociadas. Em geral, é melhor ter menos preditores em um modelo, embora existam testes estatísticos disponíveis que possam demonstrar a capacidade preditiva de cada fator.


Previsão de S & amp; P500 com Regressão Logística, LDA e QDA.


O S & P500 é um índice ponderado das 500 maiores empresas de capital aberto (por capitalização de mercado) no mercado de ações dos EUA. Muitas vezes, é considerado um "benchmark" de ações. Existem muitos produtos derivados para permitir a especulação ou cobertura no índice. Em particular, o S & P500 E-Mini Index Futures Contract é um meio extremamente líquido de negociação do índice.


Nesta seção, vamos usar três classificadores para prever a direção do preço de fechamento no dia $ N $ com base somente na informação de preços conhecida no dia $ N-1 $. Um movimento direto direto significa que o preço de fechamento em $ N $ é maior do que o preço em $ N-1 $, enquanto que um movimento descendente implica um preço de fechamento em US $ N $ inferior a $ N-1 $.


Se pudermos determinar a direção do movimento de uma maneira que exceda significativamente uma taxa de sucesso de 50%, com baixo erro e boa significância estatística, estamos no caminho para formar uma estratégia básica de negociação sistemática com base em nossas previsões. Nesta fase, não estamos preocupados com os algoritmos de classificação de aprendizado de máquinas mais atualizados. Neste momento, estamos apenas a introduzir conceitos e, assim, começaremos a discussão sobre a previsão com alguns métodos elementares.


Regressão Logística.


A primeira técnica que consideramos é a regressão logística (LR). No nosso caso, vamos usar o LR para medir a relação entre uma variável dependente categórica binária ("Up" ou "Down") e múltiplas variáveis ​​contínuas independentes (a porcentagem remanescente retorna). O modelo fornece a probabilidade de que um dia particular (seguinte) seja categorizado como "Up" ou "Down". Nesta implementação, optamos por atribuir cada dia como "Up" se a probabilidade exceder 0,5. Poderíamos usar um limite diferente, mas, por simplicidade, escolhi 0,5.


LR usa a fórmula logística para modelar a probabilidade de obter um dia "Up" ($ Y = U $) com base nos fatores de atraso ($ L_1 $, $ L_2 $):


A função logística é usada porque fornece uma probabilidade entre $ [0,1] $ para todos os valores de $ L_1 $ e $ L_2 $, ao contrário da regressão linear onde as probabilidades negativas podem ser geradas na mesma configuração.


Para ajustar o modelo (ou seja, estimar os coeficientes $ \ beta_i $), o método de máxima verossimilhança é usado. Felizmente para nós, a implementação da montagem e previsão do modelo LR é tratada pela biblioteca scikit-learn.


Análise de Discriminação Linear.


A próxima técnica utilizada é Linear Discriminant Analysis (LDA). LDA difere de LR porque, em LR, nós modelamos $ P (Y = U | L_1, L_2) $ como uma distribuição condicional da resposta $ Y $ dado os preditores $ L_i $, usando uma função logística. Em LDA, a distribuição das variáveis ​​$ L_i $ é modelada separadamente, dado $ Y $ e $ P (Y = U | L_1, L_2) $ é obtido através do Teorema de Bayes.


Essencialmente, LDA resulta do pressuposto de que preditores são retirados de uma distribuição gaussiana multivariada. Após calcular as estimativas para os parâmetros dessa distribuição, os parâmetros podem ser inseridos no Teorema de Bayes para fazer previsões sobre a qual classe pertence uma observação.


A LDA assume que todas as classes compartilham a mesma matriz de covariância.


Não vou me aprofundar nas fórmulas para estimar a distribuição ou probabilidades posteriores que são necessárias para fazer previsões, uma vez mais scikit-learn lida com isso para nós.


Análise Quadratic Discriminant.


A Análise Quadraticamente Discriminante (QDA) está intimamente relacionada à LDA. A diferença significativa é que cada classe agora pode possuir sua própria matriz de covariância.


O QDA geralmente funciona melhor quando os limites de decisão não são lineares. A LDA geralmente funciona melhor quando há menos observações de treinamento (isto é, quando é necessário reduzir a variância). O QDA, por outro lado, funciona bem quando o conjunto de treinamento é grande (ou seja, a variação é menos preocupante). O uso de um ou outro, em última instância, se resume ao trade-off de tendência e desvio.


Tal como acontece com LR e LDA, scikit-learn cuida da implementação da QDA, então precisamos fornecer dados de treinamento / teste para estimação e previsão de parâmetros.


Implementação do Python.


Para a implementação desses previsão, usaremos NumPy, pandas e scikit-learn. Eu já escrevi um tutorial sobre como instalar essas bibliotecas. Comentei fortemente o próprio código, por isso deve ser fácil verificar o que está acontecendo.


O primeiro passo é importar os módulos e bibliotecas relevantes. Vamos importar os classificadores LogisticRegression, LDA e QDA para este provisorista:


Agora que as bibliotecas são importadas, precisamos criar um DataFrame de pandas que contenha os retornos percentuais atrasados ​​por um número anterior de dias (padrão para cinco). create_lagged_series terá um símbolo de estoque (conforme reconhecido pelo Yahoo Finance) e crie um DataFrame atrasado durante o período especificado:


A próxima função auxiliar é projetada para criar uma porcentagem hit_rate para cada modelo, eliminando o código duplicado. Baseia-se no fato de que os objetos Logression Regression, LDA e QDA têm os mesmos métodos (ajuste e previsão). A taxa de sucesso é exibida para o terminal:


Finalmente, nós a gravamos com uma função __main__. Neste caso, vamos tentar prever a direção do mercado de ações dos EUA em 2005, usando dados de retorno de 2001 a 2004:


A saída do código é a seguinte:


Pode-se ver que a Regressão Logística e o Analisador Discriminador Linear foram capazes de ganhar uma taxa de sucesso de 56%. No entanto, o Analisador Quadratic Discriminant foi capaz de melhorar em ambos para produzir uma taxa de sucesso de 60%. Para o período específico analisado, isso provavelmente deve-se ao fato de que existe alguma não-linearidade na relação entre os fatores retardados e a direção que não está bem capturada na análise linear.


Assim, há esperança de que possamos prever parcialmente o mercado de ações dos EUA. Existem algumas ressalvas para esta metodologia de previsão:


Não utilizamos nenhuma forma de validação cruzada para reduzir erros de montagem. Um pré-programador de produção exigiria que essa análise fosse considerada robusta. O pré-programador só foi treinado em dados entre 2001-2004 inclusive. Dados de mercado mais recentes podem ter uma precisão de predição substancialmente diferente. Na verdade, não tentamos trocar essa informação. Em particular, como é que vamos executar trades? Utilizaríamos o futuro e-mini dos EUA? Utilizaríamos as ordens do mercado aberto (MOO) ou do mercado no fechamento (MOC)? Também precisamos considerar os custos de transação.


Em artigos subsequentes, consideramos essas questões em maior profundidade.


Um aviso sobre a previsão aleatória.


Nesta seção, quero destacar o problema de significância estatística quando lida com meteorologistas. Além do previsão descrita acima, também gerei uma série de "previsão" baseada unicamente no sinal de sorteios aleatórios de uma distribuição normal normal. Note-se que, no mesmo período, produziu uma taxa de sucesso de previsão de 53,4% e, no entanto, o método usado para gerar a série é essencialmente não diferente de jogar uma moeda! Tenha isso em mente sempre que você realizar os procedimentos de previsão, pois muitas vezes pode levar a um desempenho comercial terrível se não for levado em consideração.


Nos artigos a seguir, consideraremos os classificadores de previsão não-lineares supervisionados mais avançados, como redes neurais artificiais (ANN) e máquinas vetoriais de suporte (SVM). Com um "estável" de técnicas de aprendizado de máquinas à nossa disposição, posteriormente poderemos usar métodos de conjunto para produzir uma precisão e robustez de previsão que, às vezes, podem exceder as de qualquer previsor individual.


Apenas iniciando o comércio quantitativo?


3 razões para se inscrever para a lista de e-mails QuantStart:


1. Quant Trading Lessons.


Você terá acesso instantâneo a um curso de e-mail gratuito de 10 partes, repleto de sugestões e dicas para ajudá-lo a começar a negociação quantitativa!


2. Todo o conteúdo mais recente.


Todas as semanas, vou enviar-lhe um envoltório de todas as atividades no QuantStart para que você nunca mais perca uma postagem novamente.


Real, dicas de negociação viáveis, sem tonturas.


Estratégias de Negociação Momentum da Série do Tempo no Mercado de Valores Global.


Gagari Chakrabarti.


Nos últimos anos, a presença de lucros anormais nos mercados de ações foi empiricamente validada, colocando assim a Hipótese do Mercado Eficaz em julgamento; e a afirmação de que o mercado sabe que tudo ou o mercado não pode ser espancado provou ser um mito. Com a presença de regras de negociação rentáveis ​​nos mercados de ações, a especulação se torna um fenômeno comum, tornando o sistema financeiro intrinsecamente instável, vulnerável a choques e propenso a falhas. Este estudo, ao explorar a presença de regras comerciais rentáveis ​​no mercado global nos últimos anos, descobre que os submercados dos países desenvolvidos são mais vulneráveis ​​a especular atividades.


* Gagari Chakrabarti é professor assistente de Economia na Presidency University, Kolkata, na Índia. Suas principais áreas de pesquisa são economia financeira, finanças quantitativas e mercados financeiros como sistemas complexos. Ela obteve seu M. Sc., M. Phil. e Ph. D. Graduados em Economia pela Universidade de Calcutá.


Referências.


Informações sobre direitos autorais.


Autores e afiliações.


Gagari Chakrabarti.


Não há afiliações disponíveis.


Sobre este artigo.


Publicado em cooperação com.


Recomendações personalizadas.


Cite o artigo.


.RIS Papers Reference Manager RefWorks Zotero.


.BIB BibTeX JabRef Mendeley.


Compartilhe o artigo.


Acesso ilimitado ao artigo completo Download instantâneo Inclua o imposto de vendas local, se aplicável.


Cite o artigo.


.RIS Papers Reference Manager RefWorks Zotero.


.BIB BibTeX JabRef Mendeley.


Compartilhe o artigo.


Mais de 10 milhões de documentos científicos ao seu alcance.


Switch Edition.


&cópia de; 2017 Springer International Publishing AG. Parte de Springer Nature.


Estratégias de Negociação Momentum da Série do Tempo no Mercado de Valores Global.


Gagari Chakrabarti.


Nos últimos anos, a presença de lucros anormais nos mercados de ações foi empiricamente validada, colocando assim a Hipótese do Mercado Eficaz em julgamento; e a afirmação de que o mercado sabe que tudo ou o mercado não pode ser espancado provou ser um mito. Com a presença de regras de negociação rentáveis ​​nos mercados de ações, a especulação se torna um fenômeno comum, tornando o sistema financeiro intrinsecamente instável, vulnerável a choques e propenso a falhas. Este estudo, ao explorar a presença de regras comerciais rentáveis ​​no mercado global nos últimos anos, descobre que os submercados dos países desenvolvidos são mais vulneráveis ​​a especular atividades.


* Gagari Chakrabarti é professor assistente de Economia na Presidency University, Kolkata, na Índia. Suas principais áreas de pesquisa são economia financeira, finanças quantitativas e mercados financeiros como sistemas complexos. Ela obteve seu M. Sc., M. Phil. e Ph. D. Graduados em Economia pela Universidade de Calcutá.


Referências.


Informações sobre direitos autorais.


Autores e afiliações.


Gagari Chakrabarti.


Não há afiliações disponíveis.


Sobre este artigo.


Publicado em cooperação com.


Recomendações personalizadas.


Cite o artigo.


.RIS Papers Reference Manager RefWorks Zotero.


.BIB BibTeX JabRef Mendeley.


Compartilhe o artigo.


Acesso ilimitado ao artigo completo Download instantâneo Inclua o imposto de vendas local, se aplicável.


Cite o artigo.


.RIS Papers Reference Manager RefWorks Zotero.


.BIB BibTeX JabRef Mendeley.


Compartilhe o artigo.


Mais de 10 milhões de documentos científicos ao seu alcance.


Switch Edition.


&cópia de; 2017 Springer International Publishing AG. Parte de Springer Nature.

Комментариев нет:

Отправить комментарий