Funções no R

#######################
## Funções Matemáticas
log( 10 )
# Logaritmo natural
log( 10, base = 10) # Log base 10
log10(10)
# Também log de base 10
log( 10, base = 3.4076) # base 3.4076

############################
#Constante de funções trigonométricas
sin(0.5*pi) # Seno
cos(2*pi) # Coseno
asin(1) # Arco seno (radianos)
asin(1) / pi * 180

#############################
1 - (1 + 10^(-15))
factorial(100) # Fatorial de 100

#############################
## arredondamentos
round( 4.3478 )
round( 4.3478 , digits=3)
round( 4.3478 , digits=2)

#######################################
#Valores Infinitos, Indefinidos e Inexistentes
-5/0
500000000000000000/Inf
2 * NA

#########################
#Vetores
a = c(3.4, pi, exp(-1))
a1= c(3.4,pi, "a")
a2= c(3.4,pi, a)
a1
a2
#Sequências
b = 1:8
b
seq(from=1, to=4)
seq(from=1, to=4, by=0.5)
seq(from=1, to=4, length=6)
## Sequencias com padrão
rep(5, times=3)
rep(1:5, 3)
rep(1:5,each=3)

####################
#Operações com vetores
a = seq(0,8,2)
a
b = c(1,15,18,3,6)
a+b
a^(1/b)
length(b)/length(a)
b
sort(b)
sort(b, decreasing=T)

#######################################

Inserindo dados no R

#######################
##Inserindo dados
# Leitura de dados TXT separado por tabulação com read.table
df <- read.table("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/test.txt", header = FALSE)
# Verificar o arquivo
df
# Leitura de dados CSV com read.csv
df <- read.table("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/test.csv", header = FALSE, sep = ",")
df <- read.csv("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/test.csv",
header = FALSE)
# Simbolo separador é a vírgula
# O argumento header (cabeçalho) é TRUE, significando que a primeira linha corresponde aos nomes das variáveis
# O argumento fill é TRUE e todos os campos não preenchidos serão adicionados
# Verificar o arquivo
df
# Leitura de dados TXT separado por outros símbolos com read.delim
df <- read.delim("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/test_delim.txt", sep="$")
df <- read.delim2("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/test_delim.txt", sep="$")
# Verificar o arquivo
df

# Colocar dados diretamente no R
area <- c(303, 379, 961, 295, 332, 47,  122, 11, 53, 2749)
riqueza <- c(3, 10, 20, 7, 8, 4, 8, 3, 5, 23)
area
riqueza
summary(area)
summary(riqueza)
mean(x=area)
var(area)
sd(x=area)
mean(riqueza)
var(riqueza)
sd(riqueza)
plot(x=area, y=riqueza, xlab="Area (ha)", ylab="Número de Espécies")
modelo1 <- lm(riqueza~area)
plot(x=area, y=riqueza, xlab="Area (ha)", ylab="Número de Espécies")
abline(modelo1)
plot(x=area, y=riqueza, xlab="Log Area (ha)", ylab="Log Número de Espécies", log="xy")
modelo2 <- lm(log(riqueza,base=10)~log(area,base=10))
abline(modelo2)
#######################

Past

Past é um software livre de análise de dados científicos, com funções para a manipulação de dados, plotagem, estatísticas uni e multivariada, análise ecológica, de séries temporais e análise espacial, morfometria e estratigrafia.

PGDSpider



Uma ferramenta de conversão automática de dados para softwares de genética de populações e programas de genômica

Clique aqui para acessar a página do programa

Bioconductor

Bioconductor fornece ferramentas para a análise e compreensão dos dados genômicos de alto rendimento. Bioconductor usa a linguagem de programação estatística R, e é open source e desenvolvimento aberto.
Ele tem duas versões a cada ano,  934 software packages e uma comunidade de usuários ativos. Bioconductor também está disponível como Amazon Machine Image (AMI).

Clique aqui para acessar a página do programa

SNPStats

Ferramenta muito simples e user-friendly para analise de SNPs que fornece as informações básicas, com 4 opções de input

Clique aqui para acessar a página do programa

fastStructure

fastStructure é um algoritmo para inferir a estrutura da população a partir de grandes volumes de dados genótipo SNP. Baseia-se em um quadro Bayesian variacional para posterior inferência e é escrito em python2.x. Aqui, resumimos como configurar este pacote de software, compilar os scripts de C e Cython e executar o algoritmo em um teste simulado dataset genótipo.

Clique aqui para acessar a página de download

Adegenet

Este pacote do R implementa ferramentas para analisar e simular dados genéticos. Originalmente desenvolvido para dados multialélicos, marcadores co-dominantes, como os microssatélites, adegenet agora também lida marcadores dominantes e permite qualquer ploidia nos dados. O implemento de mais memória e armazenagem de dados permite a análise de todo o genoma com SNPs.
É o programa mais completo para análise de dados populacionais no R.


adegenet armazena os dados genotipicos usando a classe S4 "genind":
Indivíduos nas linhas e alelos nas colunas em uma matriz chamada "tab", cada alelos é representado por 2 colunas.
Os elementos são acessados com o operados @ (e.g., x@tab). Informações adicionais são armazenadas em outros espaços (@ind.names, @pop, . . . )
Mais detalhes sobre a classe podem ser acessados pelo comando:
class?genind


Polysat

Esse pacote do R fornece ferramentas úteis para trabalhar com dados de microssatélites de qualquer nível de ploidia, incluindo populações de ploidia mista. O pacote pode converter dados de genótipos entre diferentes formatos, incluindo Applied Biosys-tems GeneMapper®, dados binários de presença / ausência, Tetra / Tetrasat,  GenoDive, SPAGeDi, STRUCTURE, POPDIST, e Strand. Também pode calcular distâncias genéticas final entre as amostras, auxiliar o usuário na estimativa  ploidia com base no número de alelos, e estimar as freqüências alélicas e FST. devido  para a versatilidade do ambiente de programação R e a simplicidade de como genótipos são armazenados pelo polysat, o usuário poderá usar muitas outras funções do R, tais como coordenadas principais Análise ou AMOVA.

PopGenReport

Este pacote do R tem como objetivo a análise de dados de genética de população (apenas dados de microssatélites).  Também apresenta análises mais sofisticadas de dados genéticos populacionais espaciais. Este pacote inspira-se fortemente em pacotes já existentes, tais como adegenet, MMOD, pegas e outros.

Clique aqui para acessar a página de download

Poppr

Poppr é um pacote de R para análise de dados genéticos populacionais. Poppr apresenta funções essenciais para a análise de populações com modos mistos de reprodução normalmente observados para as populações microbianas, incluindo uma mistura de reprodução assexual e sexual. Poppr permite a análise hierárquica conveniente de populações com vários níveis subpopulação, clone censura, análise de distância (incluindo a distância de Bruvo), incluindo dendrogramas com suporte de bootstrap, desequilíbrio de ligação e muito mais.

Clique aqui para acessar a página de download

HIERFSTAT

HIERFSTAT é um pacote para R permitindo estimar F-estatísticas e componentes de variância com os métodos de momentos para qualquer número de níveis em uma hierarquia. O pacote também permite testar a significância da diferenciação população que utiliza a probabilidade relação G-estatística ou os componentes de variância

Clique aqui para acessar a página de download

Power Core

Programa de aplicação da estratégia de M avançado com uma busca heurística para estabelecer coleções núcleo contendo o menor número de acessos do germoplasma que mantém a diversidade de todo o banco, considerando dados moleculares e agromorfológicos.

FAMD


Fingerprint Analysis with Missing Data (FAMD) é uma pequeno programa que aborda resoluções de problemas com dados faltantes em dados domindantes provindo de marcadores como AFLP, RAPD, ISSRs. Aguns dos objetivos do programa são:

  • cálculo da similaridade (des) mínima / máxima / média de Jaccard, Dice, Nei e euclidiana
  • produção de matrizes de distância
  • estimativa do índice de Shannon por bootstrapping.
  • UPGMA, NJ e as árvores de consenso estrito
  • PCoA (análise de coordenadas principais) e visualizador 3D com suporte bitmap e metarquivo
  • AMOVA para todas as medidas implementadas (dis) similaridade
  • Exportação de dados para uma série de formatos como Nexus, Arlequin projeto, hindex, Hickory (Nexus), GenePop, NTSYSpc, Structure
  • Estimação bayesiana da freqüência populaçional do alelo nulo e cálculo de distâncias inter-populacionais


MLTR

Este programa é descrito em Ritland (2002 Heredity).  MLTR faz uma estimativa do sistemas de acasalamento, utilizando dados de marcadores genéticos. Inclui métodos para caracterizar cruzamentos endogâmicos, permite que os números arbitrários de grupos, locos, alelos (descritos no Ritland 2002). Permite utilização de dados de megagametófito, marcadores dominantes, erros de genotipagem, e em nível individual estimativas com método de estimadores momento (dados dominantes não incluídos neste caso).

Clique aqui para acessar a página de download

MICRO-Checker


MICRO-Checker é um pacote de software baseado em Windows que testa a genotipagem de dados de microssatélites de populações diplóides. O programa auxilia a identificação de erros de genotipagem diferentes, e pode também detectar erros tipográficas. MICRO-Checker estima a frequência de alelos nulos. MICRO-CHECKER também pode ajustar as frequências alélicas e genotípicas em função da presença de alelos nulos.

:::LDNe:::


LDNe é um programa que implementa uma correção do viés de estimativas do tamanho efetivo da população (Ne) com base em dados de desequilíbrio de ligação. O programa suporta um grande número de amostras, os indivíduos, loci, e alelos, bem como dois sistemas de acasalamento. LDNe calcula estimativas usando diferentes critérios para a exclusão de alelos raros, o que facilita a avaliação de dados de marcadores altamente polimórficos, como microssatélites. O programa usa o método de Burrows, que não necessita de pré-suposições sobre acasalamento ao acaso, informações ou  freqüências haplotípica. O programa também usa o método jackknife para a obtenção de intervalos de confiança.

:::SPAGeDi:::


SPAGeDi é um pacote de computador projetado principalmente para caracterizar a estrutura genética espacial de indivíduos mapeados e / ou populações mapeadas usando dados de genótipos de qualquer nível de ploidia.

Click aqui para acessar a página de download

:::Spatial Genetic Software (SGS):::


O programa Spatial Genetic Software (SGS), prevê ao usuário de Windows uma ferramenta amigável para analisar em pequenas e em grande escala, as estruturas genéticas e fenotípicas das populações. 
O programa pode lidar com quase todos os tipos de dados genéticos, tais como marcadores co-dominantes (isoenzimas, microssatélites), marcadores dominantes (RAPDs, AFLPs) e marcadores citoplasmáticos. Os dados podem ser analisados ​como indivíduo de uma população (escala local) e como dados das frequências dos alelos ou haplótipos para as diferentes populações  (larga escala). 
O programa oferece várias estatísticas para analisar a estrutura genética espacial e fenotípica: índice de Moran, índice de Geary, número de alelos em comum e abordagens utilizando distâncias genéticas e valores de FST. A significância estatística de todas as medidas é verificada através da utilização de teste de permutação. 


Click aqui para acessar a página de download

:::Darwin:::


Darwin é um pacote de software desenvolvido para a análise de diversidade e filogenia.
Várias funções estão disponíveis para inferir e transformar as matrizes de dissimilaridade a partir de sequências nucleotídicas, marcadores moleculares, caracteres qualitativos ou quantitativos.
Algoritmos diferentes são implementados para realizar análises fatoriais e para a construção de árvores, para avaliar a sua confiabilidade ou para comparar várias árvores no mesmo conjunto de dados.