Outra coisa, alguém pode me explicar como a taxa de falha do robô deve ser fornecida?
Não entendi essa parte do enunciado do EP:
"A taxa de falha do robô deve ser fornecida como um conjunto de quatro dados de entrada, da seguinte forma: assumindo que os comandos possam ser N, S, E, W (norte, sul, leste, oeste), quando o comando for, por exemplo, N ("vá para o norte"), teremos a probabilidade de ele ir para N, a probabilidade de ir para S, para E e para W (a soma desses quatro valores, evidentemente, deve dar 100 por cento). Se o comando for E, esses mesmos valores serão rotacionados adequadamente (de maneira similar ao que fizemos em sala de aula)."
Obrigadas!!
Oi Marcela,
sim quanto à sua interpretação do alvo e do ponto proibido, é isso mesmo.
Quanto à falha do robô: no exemplo da sala de aula, essa taxa era assim:
comando N: 0.1 para W, 0.1 para E, 0.0 para S e 0.8 para N (se não me falha a memória)
comando S: 0.1 para W, 0.1 para E, 0.8 para S e 0.0 para N
etc.
Ou seja, quando eu mando o robô para N, ele tem 80% de chance de ir mesmo, 10% de chance de ir para W, 0 de ir para S e 10% para E.
No exercício, isso será dado de entrada, ou seja, você especificará as probabilidades de ele ir para N, S, W ou E quando ele recebe a ordem de ir para N, idem quando recebe a ordem de ir para S etc.
Se não estiver claro, pergunte de novo!
Não sei se entendi, não.
Eu devo receber 4 valores, digamos 0.8 0.0 0.1 0.1, que são as probabilidades de ir:
- Ir para ação
- Oposto à ação
- W à ação
- E à ação
(Ou alguma outra ordem disso) É isso?
Ou devo receber 4 quadruplas, cada uma referente a um comando?
Oi Marcela,
é isso mesmo, você entendeu direitinho
A sua primeira interpretação é um caso particular da segunda. Se você (e todos) fizer(em) a primeira interpretação para mim já estará ótimo. Sua primeira interpretação é a que corresponde ao enunciado do exercício, que agora espero que esteja ficando mais claro.
Marcela e colegas, se tiverem dúvidas por favor perguntem até esclarecer. É importante entender bem o que está sendo solicitado, para não correr o risco de resolver corretamente o exercício errado
"Você deve, para um mesmo labirinto e posições do alvo, "ponto proibido" e partida do robô, construir valores de entrada distintos que, quando seu programa for executado, construam políticas de movimentação distintas."
"um mesmo labirinto" significa de mesmo tamanho e paredes ou de mesmo tamanho, paredes E recompensas?
Eu alterei as recompensas dos estados nos meus testes. Gostaria de confirmar se pode fazer isso.
Obrigada novamente!!