Auditor Federal de Controle Externo - 2022
Considere o código Python a seguir.
[4c16468154071734712fb9979fd8022442646c63ba6f87e25b5b6ed5d05224aa-61-0.jpg]
A execução desse código na IDLE Shell produz, na ordem e exclusivamente, os números:
Natasha, uma cientista de dados, está trabalhando com um conjunto de dados sobre carros para fazer um modelo preditivo para uma companhia de seguros. A primeira versão do modelo utiliza apenas informações básicas sobre os carros: a marca e a cor.
Como esses dados são categóricos, Natasha faz um pré-processamento usando a biblioteca scikit-learn. Em um ambiente interativo, ela executa os comandos a seguir.
from sklearn.preprocessing import OneHotEncoder >>> enc = OneHotEncoder() >>> X = [['Toyota', 'vermelho'], ['Toyota', 'verde'], ['BMW', 'vermelho']]
enc.fit(X) >>> enc.get_feature_names() array(['x0_BMW', 'x0_Toyota', 'x1_verde', 'x1_vermelho'], dtype=object)
X_prime = enc.transform(X).toarray() >>> X_prime array([[0., 1., 0., 1.], [0., 1., 1., 0.], [1., 0., 0., 1.]])
Para contar o número de carros da marca Toyota no conjunto de dados, obtendo corretamente o resultado 2, Natasha pode usar a seguinte linha de código:
ATENÇÃO!
Para a questão a seguir, considere uma tabela relacional R, com atributos W, X, Y, Z, e o conjunto de dependências funcionais identificadas para esses atributos.
X → Y
X → Z
Z → X
Z → W
Analise o conjunto de dependências funcionais inferidas abaixo a partir do conjunto de atributos e dependências funcionais presentes na tabela R, como descrita anteriormente.
(1) X → Y Z W (2) X → W (3) X W → Y W (4) X Y Z W → X Y (5) Y → Z
À luz dos axiomas da teoria de projeto de bancos de dados aplicáveis nesse caso, é correto concluir que, dentre essas dependências inferidas:
ATENÇÃO!
Para a questão a seguir, considere uma tabela relacional R, com atributos W, X, Y, Z, e o conjunto de dependências funcionais identificadas para esses atributos.
X → Y
X → Z
Z → X
Z → W
Com referência à tabela R, definida anteriormente, considere o esboço de um comando SQL para a criação da tabela.
[4c16468154071734712fb9979fd8022442646c63ba6f87e25b5b6ed5d05224aa-64-0.jpg]
De acordo com as dependências funcionais de R, e com a Forma Normal de Boyce-Codd, a definição correta das chaves (por meio de constraints) aplicáveis e necessárias para essa tabela deveria ser:
Um analista do TCU recebe o conjunto de dados com covariáveis e a classe a que cada amostra pertence na tabela a seguir.
[4c16468154071734712fb9979fd8022442646c63ba6f87e25b5b6ed5d05224aa-65-0.jpg]
Esse analista gostaria de prever a classe dos pontos (1,1), (0,0) e (-1,2) usando o algoritmo de k-vizinhos mais próximos com k=3 e usando a distância euclidiana usual.
Suas classes previstas são, respectivamente:
Em um problema de classificação é entregue ao cientista de dados um par de covariáveis, (x1 , x2 ), para cada uma das quatro observações a seguir: (6,4), (2,8), (10,6) e (5,2). A variável resposta observada nessa amostra foi “Sim”, “Não”, “Sim”, “Não”, respectivamente.
A partição que apresenta o menor erro de classificação quando feita na raiz (primeiro nível) de uma árvore de decisão é:
Seja uma rede neural com camada de entrada com dimensão dois que recebe dados (x1 , x2 ). Essa rede aplica pesos w1 em x1 , w2 em x2 e adiciona um viés w0 . A função de ativação é dada pela função sinal s(z) = +1, se z ≥ 0, e s(z) = -1, se z < 0. Essa rede não tem nenhuma camada oculta e será utilizada para classificar observações em y=+1 ou y=-1.
Para pesos w1 = 2, w2 = 3 e viés w0 = 1, a região de classificação é uma reta que passa nos pontos:
Um analista de dados deseja criar um modelo para classificação de documentos em duas categorias: sigilosos e públicos. À sua disposição, existe um conjunto de dados com N documentos, dos quais uma fração α deles é sigilosa. O analista quer escolher uma fração β dos N documentos para pertencer ao conjunto de teste. O objetivo é garantir que cada uma das classes (documentos sigilosos e públicos) seja responsável, em média, por ao menos 10% do total de documentos. Essa restrição precisa ser válida tanto no conjunto de treino quanto no conjunto de teste. Um par (α,β) que satisfaz as restrições do analista é:
Um analista do TCU gostaria de aplicar um modelo de Latent Dirichlet Allocation (LDA) em um conjunto de textos. A alternativa que melhor descreve o resultado do modelo é:
A tabela presente no código em R abaixo apresenta a quantidade de processos analisados por três analistas (denotados por A1, A2 e A3) em diferentes anos.
dados = tibble::tibble(Analista=c(“A1”, “A1”, “A1”, “A2”, “A2”, “A3”, “A3”, “A3”),
Ano=c(2018,2019,2020,2019,2020,2018,2019,2020), Processos=c(10,15,20,25,20,8,7,12))
Um programador roda o código abaixo em R.
tidyr::pivot_wider(data=dados, names_from=”Analista”, values_from=”Processos”)
Os valores esperados na primeira linha do objeto resultante do comando acima são: