Sistemas Inteligentes de Gestão de Energia em … · Sistemas Inteligentes de Gestão de Energia...
Transcript of Sistemas Inteligentes de Gestão de Energia em … · Sistemas Inteligentes de Gestão de Energia...
Sistemas Inteligentes de Gestão de Energia em Edifícios de
Escritório
Carlos Jorge Garbacz Gomes
Dissertação para obtenção do Grau de Mestre em
Engenharia Mecânica
Orientadores: Prof. Carlos Augusto Santos Silva
Prof. Paulo Manuel Cadete Ferrão
Júri
Presidente: Prof. Mário Manuel Gonçalves da Costa
Orientador: Prof. Carlos Augusto Santos Silva
Vogal: Prof. Paulo Jorge Fernandes Carreira
Outubro 2014
1
Agradecimentos
Em primeiro lugar gostaria de agradecer ao meu orientador Carlos Augusto Santos Silva,
pela sua orientação e mais que tudo, pela paciência e ajuda que me deu ao longo deste semestre.
Um especial agradecimento ao Henrique Pombeiro, por ter sido a pessoa que mostrou mais
disponibilidade na resolução de qualquer crise que tenha ocorrido, especialmente nas últimas
semanas. Pela sua opinião, revisão e ajuda no meu trabalho, o meu ‘’muito obrigado’’. E ainda pelo
espaço que disponibilizou no seu gabinete para eu poder trabalhar.
Agradeço também ao João Fumega, à Filipa Amorim, à Vilma e ao Ricardo Gomes pelo seu
contributo, por me terem deixado usar os seus gabinetes para os ensaios da aplicação.
Há minha família pelos valores que me transmitiu e ao apoio dado ao longo destes 5 anos.
E aos meus amigos pela motivação e força dadas em alturas fundamentais.
2
RESUMO
Os atuais sistemas de gestão energética, em edifícios de escritórios, não são flexíveis o
suficiente para minimizar o consumo de energia e ao mesmo tempo maximizar o conforto dos
usuários. Estes sistemas utilizam funções gerais de conforto que, muitas vezes, não descrevem as
preferências individuais.
O objetivo desta tese é a conceção de um sistema de gestão de energia para edifícios de
escritórios que seja capaz de reconhecer as preferências individuais utilizando algoritmos de
aprendizagem e ajustando os sistemas de climatização para maximizar o conforto do utilizador, mas
ao mesmo tempo minimizar o consumo de energia. Este sistema foi validado nos gabinetes no 2º
andar do Instituto Superior Técnico – Tagus Park que está equipado com um sistema de domótica.
Foi implementado um algoritmo de controlo de aprendizagem reforçada, recorrendo ao
software Matlab, para o sistema de climatização de forma a determinar um perfil de conforto
específico de cada utilizador, recorrendo à análise das ações de controlo do ambiente do seu
gabinete.
Com os ensaios realizados, foi possível concluir que o sistema foi capaz de determinar de
forma automática o nível de conforto do ocupante. Para as mesmas condições e diferentes
utilizadores, obteve-se níveis diferentes de conforto e o sistema conseguiu performances satisfatórias
ao conseguir regular a temperatura do gabinete muito próxima da temperatura de conforto aprendida.
Palavras-chave: domótica, energia, conforto térmico, controlo, aprendizagem, gestão
3
ABSTRACT
The current energy management systems in office buildings are not adjustable enough to
minimize power consumption while maximizing comfort to users. To do this, these systems consider
general comfort functions which often do not describe individual preferences.
The aim of this thesis is to design a power management system for office buildings which can
recognize the individual user's preferences using learning algorithms and adjusting the lighting and air
conditioning equipment to maximize user comfort, but simultaneously minimize the energy
consumption. This was tested in the offices on the 2nd floor of the Instituto Superior Técnico - Tagus
Park equipped with an automation system.
The main purpose is to implement different control and learning algorithms, with the aid of the
Matlab software, for lighting and air conditioning and try to get a suitable profile for each user. This
was to achieve by analyzing the user’s control actions in the office.
After the tests, it was reached the conclusion that the system was able to automatically
determine the occupant’s comfort level, and for the same conditions, different users have different
levels of comfort. The system obtained good performances by adjusting a temperature very close to
the user’s comfort temperature learned.
Key-words: building automation, energy, thermal comfort, control, learning, management
4
Índice
AGRADECIMENTOS .......................................................................................................................................... 1
RESUMO .......................................................................................................................................................... 2
ABSTRACT ........................................................................................................................................................ 3
ÍNDICE ............................................................................................................................................................. 4
LISTA DE FIGURAS ............................................................................................................................................ 6
ABREVIATURAS E SIMBOLOGIA ....................................................................................................................... 8
1. INTRODUÇÃO ............................................................................................................................................... 9
1.1. ENQUADRAMENTO ......................................................................................................................................... 9 1.2. MOTIVAÇÃO ............................................................................................................................................... 10 1.3. TRABALHOS RELACIONADOS........................................................................................................................... 11 1.4. OBJETIVOS E CONTRIBUTOS ........................................................................................................................... 12 1.5. ESTRUTURA DA TESE ..................................................................................................................................... 12
2. SISTEMAS DE GESTÃO DE ENERGIA EM EDIFÍCIOS ...................................................................................... 14
2.1. DEFINIÇÕES DE EDIFÍCIO INTELIGENTE .............................................................................................................. 14 2.2. DEFINIÇÃO DE UM BUILDING ENERGY MANAGEMENT SYSTEM (BEMS) ................................................................. 14 2.3. DESVANTAGENS DOS BEMS ATUAIS ................................................................................................................ 15 2.4. DOMÓTICA DE EDIFÍCIOS ............................................................................................................................... 16
2.4.1. Arquitetura geral de um BEMS ..................................................................................................... 17 2.4.2. Tipos de Domótica e Sistemas de controlo .................................................................................. 18 2.4.3. Protocolos e interligações ............................................................................................................ 19
2.4.3.1. BACnet Emerge ................................................................................................................................... 19 2.4.3.2. O Arranque da LonWorks .................................................................................................................... 20
2.4.4. Protocolo KNX .............................................................................................................................. 21
3. CONFORTO................................................................................................................................................. 23
3.1. DEFINIÇÃO DE CONFORTO TÉRMICO ................................................................................................................ 23 3.2. FATORES QUE INFLUENCIAM O CONFORTO TÉRMICO ........................................................................................... 24
3.2.1. Metabolismo ................................................................................................................................ 24 3.2.2. Roupa ........................................................................................................................................... 25 3.2.3. Temperatura do ar ....................................................................................................................... 26 3.2.4. Temperatura radiante media ....................................................................................................... 26 3.2.5. Velocidade do ar ........................................................................................................................... 27 3.2.6. Humidade Relativa ....................................................................................................................... 27
3.3. MODELOS DE CONFORTO TÉRMICO .................................................................................................................. 27 3.3.1. Temperatura efectiva ................................................................................................................... 27 3.3.2. Voto Médio Estimado (Predicted Mean Vote) ............................................................................. 28 3.3.3. Modelo adaptativo ....................................................................................................................... 30
3.4. CONSIDERAÇÕES SOBRE O CONFORTO TÉRMICO ................................................................................................ 31 3.4.1. Adaptação Física ........................................................................................................................... 34 3.4.2. Adaptação Comportamental ........................................................................................................ 35 3.4.3. Efeitos de ventilação natural no conforto térmico ...................................................................... 35 3.4.4. Relação com o Clima Exterior ....................................................................................................... 35 3.4.5. Sensibilidade térmica do individuo .............................................................................................. 36 3.4.6. Diferenças Sexuais ........................................................................................................................ 37 3.4.7. Pessoas nos Edifícios .................................................................................................................... 37
5
4. DESCRIÇÃO DO CASO DE ESTUDO .............................................................................................................. 38
4.1. LOCALIZAÇÃO .............................................................................................................................................. 38 4.2. DESCRIÇÃO DETALHADA ................................................................................................................................ 38 4.3. SISTEMA DE CONTROLO ATUAL ....................................................................................................................... 39 4.4. SISTEMA DE CONTROLO PROPOSTO ................................................................................................................. 41
5. REINFORCEMENT LEARNING ...................................................................................................................... 42
5.1. DESENVOLVIMENTO INICIAL DE ALGORITMOS .................................................................................................... 42 5.2. DESVANTAGENS E PONTOS FRACOS ................................................................................................................. 43 5.3. INTRODUÇÃO E CONCEITOS ............................................................................................................................ 44 5.4. ELEMENTOS DO REINFORCEMENT LEARNING ......................................................... ERROR! BOOKMARK NOT DEFINED. 5.5. ARQUITETURA DE REINFORCEMENTE LEARNING ................................................................................................. 46 5.6. Q-LEARNING ............................................................................................................................................... 47
6. ALGORITMO DE REINFORCEMENT LEARNING DESENVOLVIDO................................................................... 49
6.1. IMPLEMENTAÇÃO DO PROGRAMA ................................................................................................................... 49 6.2. TEMPERATURA IDEAL DO UTILIZADOR ............................................................................................................... 50 6.3. CONTROLO AUTOMÁTICO .............................................................................................................................. 53
7. RESULTADOS EXPERIMENTAIS ................................................................................................................... 58
7.1. ALGORITMO COM TEMPERATURA DE CONFORTO FIXA .......................................................................................... 58 7.1.1. Gabinete 2N-14.16 ....................................................................................................................... 58 7.1.2. Gabinete 2N-14.24 ....................................................................................................................... 59 7.1.3. Gabinete 2N-14.28 ....................................................................................................................... 60
7.2. ALGORITMO COM TEMPERATURA DE CONFORTO AJUSTÁVEL ................................................................................. 61 7.2.1. Gabinete 2N-14.16 ....................................................................................................................... 61 7.2.2. Gabinete 2N-14.14 ....................................................................................................................... 61
7.3. LIMITAÇÕES VERIFICADAS .............................................................................................................................. 62
8. CONCLUSÕES E TRABALHO FUTURO .......................................................................................................... 64
BIBLIOGRAFIA ................................................................................................................................................ 66
ANEXO I ......................................................................................................................................................... 70
6
Lista de figuras
Figura 1 – Desagregação do Consumo Total de Energia Final em 2009 [5] .................................................... 9
Figura 2 – Integração de sistemas de domótica ............................................................................................... 16
Figura 3 – Dispositivos que um BEMS tem de controlar [12] .......................................................................... 18
Figura 4 – Rede de um sistema KNX e portas BUS [15] .................................................................................. 22
Figura 6 – Balanço Térmico do corpo humano ................................................................................................ 26
Figura 5 - Zona de Conforto pela ASHRAE numa carta psicométrica [27]..................................................... 28
Figura 7 – Gráfico que relaciona o PPD com o PMV e o limite de 10% de ocupantes insatisfeitos [30] ..... 29
Figura 8 – Gráfico Adaptativo Segundo a ASHRAE Standard 55-2010 [25] ................................................... 30
Figura 9 – Variação do PMV com a temperatura média, cada ponto é o valor médio de cada pesquisa [31] ........................................................................................................................................................................ 32
Figura 10 – Variação da temperatura de conforto com a temperatura média indoor; em vários estudos realizados por todo o mundo estudo [31] ......................................................................................................... 32
Figura 11 - Variação da temperatura de conforto com a temperatura média indoor; num conjunto particular de climas; Europa (linha traçada), e Paquistão mas em diferentes partes do ano [31]. ............. 33
Figura 12 – Paquistão, a proporção de utilizadores de escritório que estiveram confortáveis a diferentes temperaturas indoor. Em várias ocasiões os usuários estiverem em desconforto nulo. Conclui-se que os edifícios no Paquistão encontram-se confortáveis num intervalo de temperaturas entre 20 e 30ºC [31]. ............................................................................................................................................ 34
Figura 13 – Variação da temperatura de conforto com a temperatura média do mês. Cada ponto representa um estudo à parte [31]. É possível distinguir os prédios com ventilação natural e os com sistema de arrefecimento/aquecimento. ........................................................................................................... 36
Figura 14 – Instituto Superior Técnico, campus Tagus Park [45] ................................................................... 38
Figura 15 – Vista Aérea do Edifício do Tagus Park [46] .................................................................................. 38
Figura 16 – Planta dos gabinetes dos docentes do núcleo 2N-14 .................................................................. 39
Figura 17 – Interface do utilizador do atual sistema instalado nos gabinetes a serem testados ................ 40
Figura 18 – Anel de controlo do sistema instalado .......................................................................................... 40
Figura 19 – Anel de controlo do sistema instalado desenvolvido. ................................................................. 41
Figura 20 – Anel de Controlo final com o algoritmo de aprendizagem .......................................................... 41
Figura 21 – Esquema do relacionamento entre estado – ação – recompensa [51]. ...................................... 46
7
Figura 22 – Esquema com a relação entre o sistema (meio ambiente) e o agente (com a função de criticar e atuar) [52] .......................................................................................................................................................... 47
Figura 23 – Interface do programa inicial antes do funcionamento ............................................................... 50
Figura 24 – Funcionamento do algoritmo Temperatura de Conforto. ............................................................ 53
Figura 25 - Interface da Aplicação durante o 1º modo - Temperatura de Conforto. ...................................... 53
Figura 26 -- Interface da Aplicação durante o 2º modo - Controlo Automático ............................................. 54
Figura 27 – Fluxograma do Algoritmo de aprendizagem do controlo do Ar Condicionado ......................... 56
Figura 28 – Exemplos de como funciona o algoritmo para duas Temperaturas diferentes lidas na sala (a – 27ºC; b – 26ºC) ..................................................................................................................................................... 57
Figura 29 – Teste realizado no gabinete 2N-14.16 ............................................................................................ 58
Figura 30 - Teste realizado no gabinete 2N-14.24 ............................................................................................ 59
Figura 31 – Teste ao gabinete 2N-28 onde se verifica uma convergência da temperatura da sala para -1ºC da temperatura de conforto aprendida ............................................................................................................. 60
Figura 32 – Teste ao gabinete 2N-14.16 onde se observa uma mudança da temperatura conforto de 2ºC durante o controlo automático .......................................................................................................................... 61
Figura 33 – Teste simulado no gabinete 2N-14 onde se verificou uma descida na temperatura de conforto de 2ºC ................................................................................................................................................................... 62
8
Abreviaturas e Simbologia AC: Ar Condicionado
ASHRAE: American Society of Heating, Refrigerating and Air-Conditioning Engineers
AVAC: Ar Condicionado, Aquecimento e Ventilação
BEMS: Building Energy Management System
CIIST: Centro de Informática do Instituto Superior Técnico
DDC: Digital Direct Control
EHSA: European Home System Association
EIBA: European Installation Bus Association
EIBG: European Intelligent Building Group
EPBD: Energy Performance of Building Directive
EUA: Estados Unidos da América
HR: Humidade Relativa
IBI: Intelligent Building Institute
IST: Instituto Superior Técnico
MDP: Markov Decision Process
MIT: Massachussets Institute of Technology
PMV: Predicted Mean Vote
PPD: Predicted Percentage Dissatisfied
RFID: Radio Frequency Identification
RL: Reinforcemente Learning
SOAP: Simple Object Access Protocol
UE: União Europeia
URL: Uniform Resource Locator
XML: Extensible Markup Language
WSN: Wireless System Network
9
1. Introdução
1.1. Enquadramento
Os edifícios são o setor que mais energia final consome no mundo, correspondendo a cerca
de 40% do total. Fazendo a divisão entre edifícios comercias e residenciais, a distribuição do
consumo energético dos edifícios residenciais europeus, em 2005 [1] rondava os 40% para o
aquecimento de espaços, 7% para o arrefecimento de espaços, 13% para iluminação e 40% para o
restante. Embora o consumo residencial, incluindo o aquecimento de espaços, não tenha diminuído
nos últimos 15 anos, a utilização e manutenção de equipamentos elétricos aumentou entre 10 e 13%,
representando mais de metade da eletricidade consumida, assim criando uma diminuição na
intensidade, mais serviços utilizando menos energia [2 e 3].
A operação de equipamento de escritório é responsável por 40% da energia elétrica
consumida num edifício de escritórios [4]. Estando o próprio setor em crescimento e
desenvolvimento, proporcionalmente também irá aumentar o consumo energético num cenário
provável onde o desenvolvimento da eficiência energética não consegue acompanhar este
crescimento. Torna-se assim essencial procurar formas de otimizar a utilização de energia nestes
espaços e minimizar os custos de operação de equipamentos tornando-os automáticos com um
ambiente amigável para o utilizador.
Figura 1 – Desagregação do Consumo Total de Energia Final em 2009 [4]
Numa tentativa de promover a sustentabilidade dos edifícios, e dada a intensa atividade
económica no sector da construção (que abrange um oitavo da atividade económica total da União
Europeia, empregando mais de oito milhões de pessoas) [3], em conjunto com a necessidade da
10
economia de energia e política de proteção do meio ambiente, a UE sentiu necessidade de criar uma
diretiva intitulada ‘’Energy Performance of Buildings Directive’’ (EPBD) [3]. Esta apela aos países
membros que definam regras mais estritas sobre o uso eficiente de energia, sendo essencial, para
edifícios com melhor sustentabilidade, a implementação de novos sistemas de controlo de energia.
Por esta razão, um dos principais objetivos dos sistemas de controlo avançado, aplicados aos
edifícios, é minimizar o seu consumo de energia.
Contudo, as exigências de conforto térmico, visual e de qualidade do ar interior têm
aumentado, especialmente no contexto da evolução tecnológica, do rápido crescimento da
população e das flutuações de preços de matérias-primas. Neste sentido, os esforços são
atualmente canalizados para a satisfação das necessidades energéticas dos edifícios (assegurando
as necessidades operacionais) mas garantindo a otimização dos seus recursos: eficiência máxima
vs. custo mínimo e proteção do meio ambiente.
1.2. Motivação
Com a tecnologia existente hoje, o mundo poderia operar com o mesmo nível de
funcionalidade e conforto utilizando 30% menos energia [5]. Em particular, nos edifícios de serviços
estima-se que seja possível reduzir pelo menos em 17% o consumo de energia [1].
Durante anos, a curva da procura de energia aumentou muito mais do que a curva da oferta
(numa estrutura “supply follows demand”), o que significa que para conseguir qualquer nível de
sustentabilidade, existe uma clara necessidade de tornar mais eficiente a produção, entrega e
consumo de energia.
Existem hoje em dia inúmeras soluções inovadoras nos vários elementos da cadeia de
energia, desde a utilização de energias renováveis, as redes inteligentes, a sistemas de gestão
energética de edifícios, e a utilização de medidores inteligentes. No entanto, importantes melhorias
podem ser ainda desenvolvidas combinando a experiência obtida ao longo dos anos com a
tecnologia já existente. Este desenvolvimento terá um rápido impacto na gestão da energia global, e,
portanto, para a possível e necessária poupança de energia e custos. O ponto crucial é a
convergência entre o sistema de automação, a inteligência digital e a infraestrutura energética, cuja
necessidade culminou na criação dos Building Energy Management Systems (BEMS).
Os BEMS são geralmente aplicados para o controlo de sistemas ativos, ou seja, de
aquecimento, ventilação e ar condicionado (AVAC), determinando também os seus padrões de
funcionamento. O seu desempenho está diretamente relacionado com a quantidade de energia
consumida nos edifícios e conforto dos seus ocupantes. Estes têm seguido os avanços das
tecnologias de informação e telecomunicações e tem sido propostas, na literatura internacional, um
número de técnicas e métodos modernos para melhorar o controlo dos sistemas específicos [6]. No
entanto, e de acordo com a mesma referência, estas técnicas, já utilizadas na área da robótica e
11
inteligência artificial, nunca foram exploradas neste campo, ou seja, nunca foi tida a preocupação de
avaliar e integrar o nível de conforto dos seus ocupantes de forma inteligente (reconhecimento do
comportamento humano).
É neste âmbito que se integram os algoritmos de aprendizagem já desenvolvidos nas áreas
acima mencionadas e que se pretendem integrar neste trabalho. A proposta é a criação de
algoritmos de aprendizagem com capacidade para analisar o comportamento humano na ocupação
de espaços, na procura das constantes dos níveis de conforto ideais num determinado espaço físico,
e reproduzir estas condições individuais otimizando simultaneamente o consumo energético do
edifício.
1.3. Trabalhos Relacionados
Nesta área já foram realizadas inúmeras tentativas de técnicas de controlo AVAC, como
pólo-colocação, regulador ideal e controlo adaptativo. Foram também propostas para a otimização
dos sistemas de climatização específicos de controlo métodos mais informatizados, tais como
algoritmos genéticos e redes neurais, regras ponderadas de linguística difusa, otimização de
simulação e controlo adaptativo em linha. Foram ainda desenvolvidos, testados e aplicados sistemas
integrados de controlo que utilizam algoritmos genéticos, controladores de otimização para a gestão
ambiental interna e previsão de ocupação, com base na informação recolhida a priori da
implementação do algoritmo [6].
O presente caso de estudo é um laboratório de tecnologias inteligentes, localizando-se no
campus do Instituto Superior Técnico (IST) Tagus Park, onde um sistema de controlo foi
desenvolvido numa plataforma tecnológica que usa o protocolo KNX.
Diversos trabalhos no âmbito da gestão de sistemas energéticos têm sido desenvolvidos
neste espaço, nomeadamente o desenvolvimento de um algoritmo de controlo do sistema de
automação do laboratório que combina a gestão da procura com o sistema de produção de energia
renovável. Neste contexto, os diversos sistemas de produção e armazenamento foram coordenados,
mantendo um equilíbrio entre a procura e a produção, procurando também a incorporação de
critérios de sustentabilidade destes sistemas na redução de emissões de gases com efeito de estufa
[7].
Uma outra dissertação foi desenvolvida com o objetivo de analisar os resultados da
implementação de algumas regras de gestão ativa da eletricidade de um sistema de domótica,
avaliando o seu impacto na redução de consumo de energia enquanto se mantêm ou se melhoram
os padrões de conforto dos ocupantes. Para isso foi comparado um controlo manual onde o utilizador
tomou todas as decisões, com um sistema automático, onde o computador, a partir dos dados da
sala, criou e implementou certas regras [8].
12
Os ensaios realizados permitiram concluir que, a nível de redução de consumo, a
implementação deste sistema não se demonstrou. A diminuição de consumo conseguida através
duma otimização utilização dos equipamentos pode ser menor que o consumo do sistema de
automação. Contudo, a partir de outros estudos já comprovados e da potencialidade vista no ensaio
efetuado, a implementação deste sistema em espaços de maiores dimensões (escola, hospital, etc),
onde se registam consumos muito superiores, pode permitir consideráveis reduções na utilização de
energia elétrica.
1.4. Objetivos e Contributos
O objetivo desta tese é a conceção de um sistema de gestão de energia para edifícios de
escritórios que é capaz de reconhecer as preferências do usuário utilizando algoritmos de
aprendizagem e ajustar os sistemas de climatização para maximizar o seu conforto, ao mesmo
tempo que minimiza o consumo de energia. Este conceito foi validado nos escritórios do núcleo de
escritórios 2N-14 no IST-Taguspark.
Foi assim criado um algoritmo, para a aplicação em escritórios individuais, que com a
intervenção do utilizador, fosse capaz, num curto espaço de tempo, de aprender uma temperatura de
conforto apenas baseado nas análises feitas à utilização do ar condicionado. De seguida, com uma
temperatura de conforto ideal aprendida era acionado o controlo automático, que por um sistema de
recompensas e probabilidades fosse capaz de conseguir regular a temperatura do gabinete muito
próxima da temperatura de conforto aprendida.
1.5. Estrutura da tese
Esta dissertação está organizada em oito capítulos onde diferentes assuntos são descritos
de forma simplificada.
A motivação e os objetivos da tese são introduzidos no primeiro capítulo com uma visão geral
do tópico da tese.
No segundo e terceiro capítulo foram introduzidos os temas mais importantes relacionados
com o tema desta dissertação, os sistemas inteligentes de gestão de energia e conforto. Estes
capítulos mostram as pesquisas e o trabalho feito até agora sobre estes dois tópicos.
No capítulo 4 é apresentado o caso de estudo, o local onde foram feitas as simulações finais
do algoritmo. É ainda apresentado o sistema de controlo antigo e as diferenças principais que foram
implementadas com este trabalho.
13
De seguida, no capítulo 5 é introduzido o tema da aprendizagem reforçada, para no sexto
capítulo ser finalmente apresentado a interface e o algoritmo criados na forma de esquemas,
imagens e fluxogramas.
No capítulo 6 são apresentados os resultados obtidos na forma de gráficos e as suas
respetivas análises.
Nas conclusões é feito um comentário aos resultados, ao significado da tese e futuras
contribuições para a continuação do desenvolvimento dos sistemas inteligentes de gestão de
energia.
14
2. Sistemas de Gestão de Energia em Edifícios
2.1. Definições de Edifício Inteligente
Em 1986 foi criada nos Estados Unidos da América (EUA) a organização Intelligent Buildings
Institute (IBI), com o objetivo de promover e apoiar todos os aspetos relacionados com os edifícios
inteligentes. Uma das primeiras missões foi a tentativa de criar uma definição para o conceito de
edifício inteligente. A que reuniu mais consenso foi a seguinte:
‘‘Um edifício inteligente é aquele que oferece um ambiente produtivo e que é
economicamente racional através da otimização dos seus quatro elementos básicos – estrutura,
sistemas, serviços e gestão – e das interligações entre eles.” [9].
Segundo European Intelligent Building Group (EIBG) um edifício inteligente é aquele que:
‘’… incorpora os melhores conceitos, materiais, sistemas e tecnologias disponíveis de
integração destes para alcançar um edifício que atende ou excede os requisitos de desempenho dos
stakeholders do edifício, onde estão incluídos os proprietários, os gestores e os usuários, bem como
o local e a comunidade global.’’ [9].
Com a análise destas definições, podemos resumir que um edifício inteligente é aquele que:
1. Concentra-se no benefício dos usuários ao criar um ambiente interno desejado para os
ocupantes e permite uma gestão eficaz dos recursos com custos mínimos de vida,
centrando-se no benefício dos administradores e no impacto ambiental e económico. Tem
sempre em consideração que o ambiente construído deve ser produtivo, seguro, saudável,
térmico, auditivo e visualmente confortável.
2. O edifício tem que ter potencial para servir as gerações futuras, ou seja, a sustentabilidade e
adaptabilidade ao longo do ciclo de vida do edifício, e ainda a proteção os recursos da terra e
do meio ambiente.
2.2. Definição de um Building Energy Management System
(BEMS)
Um Sistema de Gestão de Energia de Edifícios (BEMS, em inglês) é um sistema de controlo
instalado em edifícios que supervisiona equipamentos mecânicos e elétricos do edifício, tais como
ventilação, iluminação, sistemas de energia, sistemas de incêndio e sistemas de segurança. Um
15
BEMS consiste numa plataforma integrada de software e hardware. O BEMS é geralmente
configurado de uma maneira hierárquica, usando protocolos tais como C-bus, Profibus, mas também
podem ser encontradas no mercado soluções de BEMSs que se integram protocolos de Internet e
padrões abertos, como DeviceNet, SOAP, XML, BACnet, LonWorks e Modbus.
Um BEMS pode melhorar o desempenho do edifício e a facilidade das operações ao longo
do seu ciclo de vida [10]. O objetivo primário de um edifício com BEMS é minimizar os custos a longo
prazo da posse das instalações aos proprietários, ocupantes e meio ambiente. Neste tipo de edifícios
todos os componentes do edifício são integrados, a fim de trabalhar em conjunto. Isso melhora o
desempenho operacional, aumenta o conforto e satisfação dos ocupantes, e disponibiliza ao
proprietário sistemas, tecnologias e ferramentas para gerir e minimizar o consumo de energia.
Possuir um edifício com um BEMS significa ter acesso a [10]:
• Informações práticas sobre o desempenho dos sistemas de construção e das instalações;
• Monitorização e deteção proactiva de erros ou deficiências nos sistemas de construção;
• Um nível de integração dos sistemas de negócios da empresa, que gera relatórios em tempo
real, sobre a utilização de operações de gestão, energia e conforto dos ocupantes;
• Ferramentas, tecnologias, recursos e práticas que contribuem para a conservação da energia
e da sustentabilidade ambiental;
2.3. Desvantagens dos BEMS atuais
Os BEMS atuais geralmente operam de acordo com horários fixos e em pressupostos de
conceção baseadas em máxima ocupação, ou seja, nas ordens e no controlo feito pelo sistema é
assumido que o edifício está com a sua ocupação máxima nas horas de expediente e com a
ocupação mínima nas horas restantes. No entanto, na maioria das instalações comerciais, os valores
de referência (set points) de temperatura, fluxo de ar e iluminação podem ser controlados
digitalmente através do BEMS centralizado, os quais são determinados e programados manualmente
[11]. Normalmente, as definições operacionais são ditadas de acordo com os períodos com e sem
ocupação assumidos diariamente e não considera uma ocupação apenas parcial. Nas observações
de ocupação em tempo real, encontra-se um valor médio de ocupação que pode representar, no
máximo, um terço de seu projeto de ocupação, mesmo em horários de pico do dia [11].
Existe, portanto, um grande potencial para reduzir o consumo de energia num edifício,
adequando os sistemas de controlo às necessidades reais de ocupação. Sobre esta temática, têm
sido implementadas e testadas várias soluções de deteção de ocupantes para entender as
necessidades reais de ocupação comparando-as com os pressupostos de conceção de ocupação
máxima. Tecnologias de deteção de ocupantes incluem sensores de movimento, câmaras, sensores
infravermelhos, RFID (identificação por radiofrequência), WSN (redes de sensores sem fio) e
16
sensores de CO2. Simulações teóricas de energia concluíram que a entrada de informações de
ocupação em tempo real pode reduzir o consumo de energia dos sistemas AVAC em 10-20% e pode
reduzir o consumo de energia de iluminação até 30% [11].
Outro fator apontado aos BEMS tem a ver com o conforto dos utilizadores ser geralmente
determinado através de medições ambientais que é mantido por estes sistemas e regulado pelos
padrões da indústria. Isto faz com que os códigos sejam programados em intervalos para garantir as
temperaturas, ventilação e luminosidade satisfatórias, durante o uso do espaço. Muitas vezes, os
intervalos de conforto dos ocupantes são maiores e mais indulgentes do que os limites previsíveis,
criando assim um potencial para a redução de consumo de energia do edifício, onde há espaço para
uma maior flexibilidade e adaptabilidade ao controlo dos AVAC.
2.4. Domótica de Edifícios
Domótica é um sistema automático de controlo baseado na utilização de uma rede de
dispositivos eletrónicos projetados para monitorizar e controlar os sistemas de ventilação mecânica,
segurança, incêndio e segurança hidráulica, iluminação (especialmente iluminação de emergência),
AVAC e controlo de humidade num edifício [1], como mostrado na figura 2. Apesar de originalmente
se referir à automação de residências, é hoje em dia um termo utilizado para se referir aos sistemas
de automação em edifícios.
Figura 2 – Integração de sistemas de domótica [12]
17
A popularidade da domótica tem vindo a crescer nos últimos anos devido à simplicidade e à
acessibilidade da conectividade dos smartphones e tablets.
Os sistemas podem variar desde simples controlos de luzes quando uma pessoa entra ou sai
de um espaço até redes baseadas em computadores / microcontroladores complexos, com vários
graus de inteligência e automação, capazes não só de controlo de presença mas também
reconhecer quem é a pessoa e definir as suas preferências como luz, temperatura, nível de som,
canais televisivos, tendo em conta o dia da semana, hora do dia, entre outros. As principais razões
da adoção da domótica são a facilidade de instalação, segurança e eficiência energética.
Domótica também pode fornecer uma interface de controlo remoto para eletrodomésticos ou
o próprio sistema de automação, para fornecer controlo e monitorização num smartphone ou página
web.
As secções seguintes descrevem a evolução do desenvolvimento da domótica aplicada aos
BEMS, explicando as abordagens tecnológicas e de penetração no mercado dos diferentes
componentes.
2.4.1. Arquitetura geral de um BEMS
A maior parte do sistema de domótica está camuflado aos olhos dos seus utilizadores, com
dispositivos de hardware montados nos equipamentos ou escondidos sob o piso ou no teto. Alguns
controlos personalizados podem ser disponibilizados por meio de dispositivos semelhantes a
termostatos. A partir de uma perspetiva de gestão central, o BEMS reside como software numa
estação de trabalho do operador (computador) ou está disponível através de uma página web.
Genericamente, um BEMS é composto por vários tipos de controladores que gerem
equipamentos e partes da rede, e por sensores que fornecem dados de entrada para o controlador.
A figura 3 mostra uma visão generalizada de um BEMS:
18
Figura 3 – Dispositivos que um BEMS tem de controlar [13]
2.4.2. Tipos de Domótica e Sistemas de controlo
Os primeiros sistemas de controlo desenvolvidos eram mecânicos, à base de atuação
pneumática, e foram concebidos para controlar vários aspetos do sistema de climatização.
Dispositivos comuns incluem controladores pneumáticos, sensores, atuadores, válvulas,
posicionadores e reguladores. Devido à sua grande base de instalação ao longo dos anos 1960 e
1970, os sistemas de controlo pneumático estão em vigor na maioria dos edifícios existentes,
especialmente nas áreas metropolitanas estabelecidas [14].
Os dispositivos de controlo eletrónico analógico tornaram-se populares em toda a década de
1980. Forneceram uma resposta mais rápida e com maior precisão do que a pneumática.
No entanto, só depois da década de 1990, quando apareceram os dispositivos de controlo
digital (ou DDC), foi possível construir um sistema de automação no verdadeiro sentido da palavra.
Mas, como não havia padrões estabelecidos para esta comunicação digital, vários fabricantes
criaram os seus próprios métodos de comunicação [14]. Deste modo, o sistema de automação
estaria totalmente funcional, mas não era interoperável ou capaz de misturar produtos de vários
fabricantes. Por isso, um edifício poderia ficar comprometido com um fabricante específico. Isso não
seria necessariamente um problema a menos que a relação com o prestador de serviço associado
fosse difícil [14].
19
Até o final dos anos 1990, e especialmente já nos anos 2000, havia associações à procura
de padronizar os sistemas de comunicação "abertos". A American Society of Heating, Refrigerating
and Air-conditioning Engineers (ASHRAE) desenvolveu o protocolo de comunicação BACnet que
acabou por se tornar o padrão aberto da indústria [14].
2.4.3. Protocolos e interligações
Os conceitos de interoperacionalidade e integração estão intimamente associados à estrutura
de um BEMS. Estes conceitos não são temas novos, sendo que a interoperabilidade é apenas a
evolução atual da domótica empresarial [14].
Controlos DDC (Direct Digital Control) trouxeram uma infinidade de novos benefícios para a
domótica, mas a interoperabilidade não era um deles. Assim como os sistemas pneumáticos foram
padronizados na faixa de pressão de 3 a 15 psi, sistemas de controlo computadorizados tornaram-se
populares e introduziram novos métodos próprios para desempenhar funções semelhantes. Embora
cada fornecedor tivesse um método próprio diferente de controlo, o novo sistema realizava benefícios
suficientes que atraíram clientes ao ponto em que quase todos os novos sistemas instalados eram
DDC [14].
Os controlos DDC tornaram-se comuns em pouco tempo. Os proprietários dos edifícios
começaram a sentir que os fabricantes desses sistemas próprios estavam a comportar-se de forma
injusta pois tornou-se comum para os fornecedores baixar os preços para as primeiras fases de
grandes projetos, gerando um lucro maior em ofertas de adição e manutenção posteriores.
Durante o final dos anos 1980, vários grupos de interesse e fabricantes começaram a
trabalhar ativamente sobre os métodos de interoperabilidade. Várias empresas publicaram os seus
protocolos, proclamando que se todos adotassem a sua linguagem, poderiam comunicar entre si.
Outros lançaram protocolos de nível mais baixo para as suas redes próprias, que permitiam aos
fabricantes criar dispositivos que pudessem existir na extremidade inferior de um sistema hierárquico
próprio, mantendo os protocolos de nível superior por si mesmos, mantendo, assim, o monopólio do
sistema de controlo [14].
2.4.3.1. BACnet Emerge
Enquanto alguns fabricantes libertaram parcelas de seus protocolos próprios, surgiu outra
tentativa para a interoperacionalidade voltada especificamente para a automação dos sistemas
AVAC. O comité BACnet (ou SPC 135P, como era anteriormente conhecido) era patrocinado pela
ASHRAE, que tinha criado centenas de normas (pela primeira vez no início de 1987) para criar um
protocolo de controlo interoperável com o foco em automação de edifícios.
20
A tarefa revelou-se extremamente difícil de concluir pois não foi fácil implementar a
cooperação entre os fabricantes. De modo a ganhar consenso, várias opções e escolhas foram
incluídas mas várias outras questões, tais como testes de conformidade do produto, foram adiadas.
Estes testes asseguram que os procedimentos ou mecanismos de uma empresa aderem às
exigências regulamentares, às práticas da indústria, às políticas corporativas e que estejam a
funcionar adequadamente. Só em 1995, a especificação BACnet de 501 páginas, foi lançada ao
público.
Hoje, existem quatro fabricantes com os sistemas originalmente BACnet e 44 fabricantes que
fazem pelo menos um produto BACnet. Do total desses fabricantes, mais de 90 por cento criam
portas de entrada para dispositivos de controlo de propriedade ou sistemas.
2.4.3.2. O Arranque da LonWorks
Como o comité BACnet estava a ter dificuldades com a interoperacionalidade da automação
dos sistemas AVAC, também a Echelon, uma start-up de Silicon Valley que tinha criado um protocolo
de controlo conhecido como LonTalk foi usada para lidar com as questões de interpretação e de
conformidade do produto [14]. A empresa colocou uma implementação da sua nova linguagem
LonTalk num circuito integrado de baixo custo, o "Neuron", e tomou a liberdade de licenciar direitos
para construir o chip para diversos fabricantes do circuito. O chip e as ferramentas utilizadas para
incorporá-lo nos produtos foi chamado de "LonWorks", e os fabricantes dos sistemas de controlo
puderam rapidamente incorporar o LonTalk nos produtos para a interoperacionalidade. O sucesso foi
tal que o protocolo LonTalk tornou-se assim um padrão do Instituto Nacional Americano de Padrões
(ANSI).
Os chips LonWorks eram pequenos e baratos o suficiente para serem usados até mesmo
nos aparelhos mais pequenos, fornecendo apenas a integração a nível de sistema que estava sendo
usada pela BACnet. Hoje em dia, uma série de tecnologias desde atuadores e sensores de presença
para luzes de emergência e estações meteorológicas, rapidamente começaram a incorporar
LonWorks, e cerca de 4.000 fabricantes oferecem produtos compatíveis.
Para lidar com os testes de conformidade, a Echelon recrutou fabricantes de dispositivos
LonTalk e em 1994 formou a associação de interoperacionalidade LonMark. Esta coligação sem fins
lucrativos criou diretrizes para os produtos interoperacionais e testa esses produtos contra as suas
próprias diretrizes. Os custos dos testes e das certificações são reunidos e utilizados para publicitar
os benefícios da certificação.
Os membros da LonMark incluem fabricantes de controlos de climatização, estores,
elevadores, iluminação, acesso, segurança, incêndio e segurança de vida e redes. Mais de 300
produtos LonMark certificados já estão disponíveis para compradores.
21
O edifício do IST TagusPark utiliza sistemas de LonWorks para o controlo de iluminação das
áreas comuns (corredores e átrios) e de climatização ao nível de núcleos (ou seja, é possível limitar
o acesso ao sistema de AVAC em conjuntos de gabinetes ou salas).
2.4.4. Protocolo KNX
A história do KNX começou no dia 5 maio de 1990, em Bruxelas, Bélgica, onde 15
fabricantes europeus de sucesso do setor elétrico fundaram a European Installation Bus Association
(EIBA), tendo como objetivo a criação de instalações eletrónicas próprias para Tecnologia Bus. De
acordo com o site da Konex Association [15], em 1991, o primeiro Manual de Open Specification foi
publicado para tornar a tecnologia Bus apta para o futuro. Todos os membros da EIBA concordaram
em usar o mesmo sistema, o chamado "Standard".
Em 1997, as soluções de Batibus, EHS e EIB apareceram, e quando o ano de 2001 chegou,
a nova Associação Konnex publicou o KNX Standard com a EIBA como sua base. Finalmente em
2003, o protocolo KNX, bem como os meios de comunicação TP e PL, foram aprovados pelos
Comitês Nacionais europeus e retificados pela CENELEC Bureau Technique como EN 50090
Standard.
Hoje em dia, os produtos rotulados com a marca comercial KNX têm a obrigação de “falar e
compreender” a linguagem KNX, ou seja, conseguir interpretar corretamente os sinais analógicos no
suporte a que estão ligados. Todos os produtos com certificação KNX podem ser configurados por
uma só ferramenta de engenharia independente do fabricante.
A abordagem acima contribuiu em grande medida para o sucesso da KNX hoje em dia,
sobretudo no sector de edifícios residenciais. Sem a conjugação rigorosa acima mencionada, seria
impossível:
• Permitir aos fabricantes desenvolverem produtos especializados que, graças à
interoperabilidade com o resto do sistema, oferecem funcionalidade que um só fabricante
nunca conseguiria oferecer;
• Facilitar o desenvolvimento de passagens entre a KNX e outros sistemas (como DALI e
BACnet);
• Neste protocolo, todos os equipamentos do barramento de dados (bus) são ligados por cabo
de bus, radiofrequência, linha de potência ou IP/Ethernet, permitindo um controlo em serie
entre todos os dispositivos. Assim, estes comunicam diretamente entre si, sem recorrer a
uma hierarquia, nem a um dispositivo central de controlo, o que torna o sistema muito
flexível. Os equipamentos de “bus” podem ser sensores ou atuadores necessários ao
controlo e gestão do edifício. Neste sistema, todas as funções podem ser controladas,
22
monitorizadas e sinalizadas através de um sistema único sem necessidade de uma unidade
de controlo central;
Na Figura 4 está representado de forma esquemática o funcionamento deste protocolo.
Figura 4 – Rede de um sistema KNX e portas BUS [16]
O edifício do IST Tagus Park tem neste momento duas zonas a funcionar com KNX: o
laboratório de energia e o núcleo de escritórios do segundo andar (2N14.10), o local onde foi
desenvolvido o trabalho experimental da tese.
23
3. Conforto
3.1. Definição de Conforto Térmico
A definição e o controlo das condições internas para alcançar o conforto térmico em edifícios
são difíceis de ser estabelecidos. Como a satisfação térmica depende de vários parâmetros, vários
trabalhos de pesquisa sobre conforto térmico foram realizados e alguns índices de conforto foram
propostos ao longo dos últimos 50 anos.
A neutralidade térmica é mantida quando o calor gerado pelo metabolismo humano é
dissipado, mantendo assim o equilíbrio térmico com o meio envolvente. Os principais fatores que
influenciam o conforto térmico são aqueles que determinam o ganho ou a perda de calor, ou seja,
taxa de metabolismo, o isolamento das roupas, a temperatura do ar, a temperatura radiante média, a
velocidade do ar e a humidade relativa. Existem também parâmetros psicológicos que afetam o
conforto térmico tais como expectativas individuais [17].
O objetivo de uma lei de controlo baseada no conforto térmico é o de manter as condições
higrotérmicas interiores dentro da zona de conforto ou dentro dos limites de conforto baseados em
indicadores. Além disso, é procurado um compromisso entre a otimização do conforto térmico e do
consumo de energia.
A satisfação com o ambiente térmico é importante para o próprio bem do ser humano,
influenciando a produtividade e a saúde. Trabalhadores de escritório que estão satisfeitos com o
ambiente térmico são mais produtivos [18].
O desconforto térmico tem provocado sintomas de ‘’síndroma dos edifícios doentes’’ [19].
Este termo é usado para descrever situações de desconforto laboral e/ou de problemas agudos de
saúde referidos pelos trabalhadores, que parecem estar relacionados com a permanência no interior
de alguns edifícios. Muitas vezes não é possível estabelecer-se qualquer diagnóstico específico ou
identificar-se as eventuais causas do desconforto de saúde. As queixas podem estar relacionadas
com um compartimento ou área específica, ou com a totalidade do edifício. Frequentemente, os
problemas surgem quando a manutenção do edifício, ou as atividades e tarefas desenvolvias no seu
interior são pouco consistentes com a estrutura e operacionalidade adequadas, ou seja, os
problemas que ocorrem no interior dos edifícios resultam muitas vezes de um desenho estrutural
desajustado, considerando as atividades dos seus ocupantes (i.e. edifício não adequado aos fins
para que é utilizado) [20].
Adicionalmente, a combinação de alta temperatura e alta humidade relativa do ar pesa na
redução do conforto térmico e da qualidade do ar interior [21].
24
Embora uma única temperatura estática possa ser confortável, o prazer térmico (alliesthesia)
geralmente é causado pela variação de sensações térmicas. Modelos adaptativos de conforto
térmico permitem flexibilidade na conceção de edifícios ventilados naturalmente que têm as mais
variadas condições interiores [22].
3.2. Fatores que Influenciam o Conforto Térmico
Uma vez que existem grandes variações de pessoa para pessoa em termos de satisfação
física e psicológica, é difícil encontrar uma temperatura ideal para todos os ocupantes num
determinado espaço. Com os dados laboratoriais e de campo, normalmente definem-se as condições
confortáveis para uma determinada percentagem de ocupantes.
Há seis principais fatores que afetam diretamente o conforto térmico que podem ser
agrupados em duas categorias: fatores pessoais, relacionados com as características dos ocupantes,
e fatores ambientais, relacionados com as condições do ambiente térmico. Os primeiros fatores
correspondem ao metabolismo e nível de vestuário, sendo os últimos a temperatura do ar,
temperatura radiante média, velocidade e humidade do ar. Mesmo que todos esses fatores possam
variar no tempo, os padrões geralmente se referem a um estado de equilíbrio para estudar o conforto
térmico, apenas permitindo variações de temperatura limitadas.
3.2.1. Metabolismo
As pessoas têm diferentes metabolismos que podem flutuar devido ao nível de atividade e
condições ambientais [23]. A Norma ASHRAE 55-2010 define a taxa metabólica como o nível de
transformação de energia química e trabalho mecânico em calor e por atividades metabólicas dentro
do organismo, normalmente expressa em termos de unidade de área da superfície total do corpo. A
taxa metabólica é expressa em unidades de met, que são definidos como:
� ��� = ��, ��� (Eq. 1)
A taxa metabólica é igual à energia produzida por unidade de superfície de uma pessoa
média sentada em repouso. A área da superfície de uma pessoa média é de 1,8 m² (19 pés (feet) ²).
A norma ASHRAE 55 fornece ainda uma tabela de taxas met para uma variedade de
atividades. Alguns valores comuns são 0,7 met para dormir, 1,0 met para uma posição sentada e
quieta, 1,2-1,4 met para atividades leves em pé, 2,0 met ou mais para as atividades que envolvem
movimento, a pé, elevação de cargas pesadas ou operar máquinas. Para as atividades intermitentes,
os estados padrão que são admissíveis a utilização de uma taxa metabólica média ponderada no
tempo, usam-se quando os indivíduos estão a realizar atividades que variam ao longo de um período
25
de uma hora ou menos. Para períodos mais longos, diferentes taxas metabólicas devem ser
consideradas [1].
Os hábitos de alimentação também podem ter uma influência sobre o metabolismo, o que
indiretamente influencia as preferências térmicas [24]. Estes efeitos podem mudar dependendo da
comida e bebida ingerida. A forma do corpo é outro fator que afeta o conforto térmico. A dissipação
de calor depende da área de superfície corporal. Assim, uma pessoa alta e magra tem uma maior
proporção superfície-volume, podendo dissipar o calor mais facilmente, e pode tolerar temperaturas
mais altas, mais do que uma pessoa com uma forma de corpo arredondada.
3.2.2. Roupa
A quantidade de isolamento térmico usado por uma pessoa tem um impacto substancial
sobre o conforto térmico, uma vez que influencia a perda de calor e consequentemente o equilíbrio
térmico. Camadas de roupas isolantes evitam a perda de calor e podem ajudar a manter uma pessoa
quente ou levar a sobreaquecimento. Geralmente, quanto mais espesso for o vestuário, maior é a
capacidade de isolamento. Dependendo do tipo de material que a roupa é feita, a circulação do ar e
a humidade relativa podem diminuir a capacidade de isolamento do material [25].
A unidade que mede o isolamento térmico relacionado com a roupa vestida é definida como
clo. 1 clo é um valor indicativo que corresponde, em termos aproximados, ao uso de umas calças,
uma camisa de manga comprida e um casaco. Valores de isolamento para outros conjuntos comuns
ou roupas podem ser encontradas na norma ASHRAE 55.
� �� = �. ��� �² • � / � (Eq. 2)
26
Figura 5 – Balanço Térmico do corpo humano
Qcon – perdas de calor por condução pela pele
Qrad – perdas de calor por radiação pela pele
Qevap – perdas de calor por evaporação pela pele
Qres.sens – perdas de calor sensíveis devido à respiração
Qres.lat – perdas de calor latentes devido a respiração
3.2.3. Temperatura do ar
A temperatura do ar é a temperatura média do ar em torno do ocupante, no que diz respeito
à localização e tempo. De acordo com a ASHRAE 55, a média espacial leva em conta os níveis do
tornozelo, cintura e cabeça, que variam para os ocupantes sentado ou em pé. A média temporal é
baseada em intervalos de três minutos com pelo menos 18 pontos igualmente espaçados no tempo.
A temperatura do ar é medida com um termómetro de bolbo seco e por esta razão, é também
conhecido como a temperatura de bolbo seco [26].
3.2.4. Temperatura radiante media
A temperatura radiante está relacionada com a quantidade de calor de radiação transferida
de uma superfície, e que depende da capacidade do material para absorver ou emitir calor, ou a sua
emissividade. A média da temperatura de radiação depende das temperaturas e valores de
emissividade das superfícies circundantes, bem como o fator de forma. Assim, a temperatura
27
radiante média experimentada por uma pessoa numa sala com luz solar incidente, varia de acordo
com a quantidade do seu corpo que está à exposição solar [26].
3.2.5. Velocidade do Ar
A velocidade do ar é definida como a taxa de circulação do ar num ponto, sem ter em conta a
direção. De acordo com o Padrão ASHRAE 55, é a velocidade média do ar para que o corpo é
exposto, no que diz respeito à localização e tempo. De acordo com o modelo termo-fisiológico SET a
média espacial baseia-se no pressuposto de que o corpo é exposto a uma velocidade uniforme de ar.
No entanto, alguns espaços podem proporcionar campos de velocidade de ar fortemente não
uniformes e consequentes perdas de calor da pele que não podem ser considerados uniformes [26].
3.2.6. Humidade Relativa
A humidade relativa é a razão entre a quantidade de vapor de água no ar, a quantidade de
vapor de água que o ar poderia conter, à temperatura e pressão específicas. Enquanto o corpo
humano possui sensores no interior da pele que são bastante eficientes em sentir o calor e frio, a
humidade relativa é detetada indiretamente. Suar é um mecanismo eficaz da perda de calor que
depende de evaporação a partir da pele. No entanto em ambientes muito húmidos, o ar tem perto da
sua máxima capacidade de vapor de água que ele pode conter, que faz com que a evaporação e,
portanto, a perda de calor é diminuída. Por outro lado, os ambientes muito secos (UR <20-30 %) são
também desconfortáveis devido ao seu efeito sobre as membranas mucosas. O nível de humidade
recomendado no interior está na gama de 30-60 % em edifícios com sistemas AVAC, mas nas novas
normas, tais como o modelo adaptativo prevê, são permitidas humidades mais baixas e mais altas,
dependendo dos outros fatores envolvidos no conforto térmico [27].
3.3. Modelos de Conforto Térmico
3.3.1. Temperatura Efetiva
Um exemplo é o índice de conforto térmico chamado temperatura efetiva, que é calculado em
função da temperatura interior e dos sinais de humidade relativa, os quais foram adotados pela
ASHRAE durante décadas [28].
O conforto térmico é a condição da mente que expressa a satisfação com o ambiente térmico
e é avaliado subjetivamente pela ASHRAE. Um dos objetivos mais importantes dos engenheiros de
projeto AVAC é a manutenção deste padrão de conforto térmico para os ocupantes de edifícios [26].
O conforto térmico pode ser identificado por uma zona de conforto no interior de uma carta
psicrométrica. A zona de conforto definida pela ASHRAE é mostrado na figura 5.
28
Figura 6 - Zona de Conforto pela ASHRAE numa carta psicométrica [28]
3.3.2. Voto Médio Estimado (Predicted Mean Vote)
Para a avaliação do conforto térmico dos utilizadores, o índice mais utilizado é o PMV
(Predicted Mean Vote), que combina as variáveis e parâmetros ambientais individuais. Foi
desenvolvido utilizando os princípios de equilíbrio térmico e os dados experimentais obtidos numa
câmara climática em condições controladas de estado estacionário [29]. Este índice é baseado num
modelo teórico combinado com os resultados de experiências com cerca de 1.300 indivíduos, e pode
ser descrita como uma função de quatro variáveis ambientais: temperatura, humidade relativa,
temperatura radiante média, e velocidade do ar, e dois parâmetros individuais: taxa metabólica e
índice de roupa [28].
O modelo PMV/PPD foi desenvolvido por P.O. Fanger que usou equações de balanço de
calor e estudos empíricos sobre a temperatura da pele para definir conforto. Em pesquisas de
conforto térmico padrão foi pedida a inúmeras pessoas a opinião sobre a sua sensação térmica
numa escala de sete pontos, do frio (-3) a quente (+3). As equações de Fanger são usadas para
calcular o Voto Médio Estimado (PMV) de um grande grupo de indivíduos para uma determinada
combinação de temperatura do ar, temperatura radiante média, humidade relativa, velocidade do ar,
29
metabolismo, e isolamento de roupas [29]. Zero é o valor ideal, e representa neutralidade térmica, e
a zona de conforto é definida por todas as combinações dos seis parâmetros onde o PMV está
dentro dos limites recomendados (-0,5 <PMV <0,5). Embora a previsão da sensação térmica de uma
população seja um passo importante para determinar quais as condições confortáveis, é mais útil
considerar se as pessoas vão ficar satisfeitas.
Fanger desenvolveu outra equação para relacionar o PMV ao Percentual Previsto Insatisfeito
(PPI). Esta relação foi baseada em estudos em que as pessoas eram observadas numa câmara
onde as condições internas podiam ser controladas com precisão. Este método trata todos os
ocupantes do mesmo modo e desconsidera a localização e adaptação ao ambiente térmico.
Basicamente, afirma que a temperatura interna não deve mudar na mesma taxa que as estações do
ano. Em vez disso, deve haver um conjunto pouco flutuante de temperaturas definido durante todo o
ano. Esta é uma tomada de posição mais passiva que os seres humanos não têm de se adaptar a
diferentes temperaturas, uma vez que a temperatura interna será sempre pouco variável [30].
O padrão ASHRAE 55-2010 usa o modelo PMV para definir os requisitos para as condições
térmicas no interior. Este padrão exige que pelo menos 90% dos ocupantes estejam satisfeitos.
Figura 7 – Gráfico que relaciona o PPD com o PMV e o limite de 10% de ocupantes insatisfeitos [31]
30
3.3.3. Modelo Adaptativo
O modelo adaptativo, por outro lado, foi desenvolvido com base em centenas de estudos de
campo com a premissa de que os ocupantes interagem dinamicamente com o seu ambiente. Os
ocupantes controlam o seu ambiente térmico por meio de roupas, janelas operáveis, ventiladores,
aquecedores pessoais e óculos de sol [32].
Figura 8 – Gráfico Adaptativo Segundo a ASHRAE Standard 55-2010 [26]
O modelo adaptativo é baseado na ideia de que o clima exterior influencia o conforto interior,
porque os seres humanos podem se adaptar a diferentes temperaturas durante diferentes épocas do
ano. A hipótese adaptativa prevê que os fatores contextuais, como ter acesso aos controlos
ambientais e ao histórico térmico do edifício, influencia as preferências e as expectativas dos
ocupantes [33]. Inúmeros pesquisadores realizaram estudos de campo em todo o mundo em que
fizeram o levantamento da opinião dos ocupantes em edifícios sobre o seu conforto térmico enquanto
simultaneamente realizavam medições ambientais. Analisando um banco de dados de resultados de
160 destes edifícios, foi revelado que os ocupantes dos edifícios ventilados naturalmente aceitam e
até preferem uma ampla gama de temperaturas do que os seus homólogos não ventilados, edifícios
com sistemas AVAC, porque a sua temperatura preferida depende das condições exteriores. Estes
resultados foram incorporadas na norma ASHRAE 55-2004 como o modelo de conforto adaptativo. O
gráfico adaptativo relaciona a temperatura de conforto interior para prevalecer a temperatura exterior
e define zonas de 80% e 90 % de satisfação.
31
A abordagem adaptativa do conforto térmico é baseada nas conclusões de pesquisas de
conforto térmico realizados em campo. Os investigadores recolhem dados sobre o ambiente térmico
e da resposta térmica simultânea de indivíduos sobre suas vidas quotidianas. A resposta térmica é
geralmente medida, pedindo-lhes para uma opinião de conforto numa escala descritiva, como a
escala ASHRAE. As intervenções dos investigadores são mantidas a um mínimo. Num estudo
realizado por Sharma et al. [34], foram usados métodos estatísticos para analisar os dados através
da variabilidade natural das condições térmicas. O objetivo foi o encontro da temperatura ou
combinação de variáveis térmicas (temperatura, humidade e velocidade do ar) que possam ser
consideradas neutras ou confortáveis. Esta análise foi, então, usada para prever as temperaturas de
conforto ou as condições de conforto, que seriam encontradas aceitáveis em circunstâncias
semelhantes noutros lugares.
Podem ser encontrados diversos obstáculos com a utilização de um ensaio de terreno. Em
primeiro lugar, as condições ambientais são inerentemente variáveis e difíceis de medir com
precisão, e os erros nos dados de entrada podem dar origem a erros nas relações não previstas pela
análise estatística. Em segundo lugar, é difícil generalizar, a partir da análise estatística, os
resultados de uma pesquisa, pois muitas vezes a natureza, qualidade e tratamento dos dados
experimentais diferem da anterior experiência, mesmo em circunstâncias semelhantes [35].
O pressuposto fundamental da abordagem adaptativa é expressa pelo princípio adaptativo:
se ocorrer uma mudança, de modo a produzir desconforto, as pessoas reagem de maneiras que
tendem a restaurar o seu conforto. As opções que as pessoas têm para reagir irão refletir a sua
situação: aqueles com mais oportunidades de se adaptarem ao meio ambiente ou o ambiente para
as suas próprias necessidades, serão menos propensos a sofrer desconforto.
Em geral, o modelo PMV pode ser aplicado aos edifícios com ar condicionado, enquanto o
modelo adaptativo é geralmente aplicado em edifícios onde não há sistemas mecânicos instalados.
Não há consenso sobre qual modelo de conforto deve ser aplicado para os edifícios que estão
parcialmente ligados com ar condicionado espacial ou temporalmente.
3.4. Considerações sobre o Conforto Térmico
Num estudo realizado por Nicol et al. [36] foram apresentados dados que sugerem que o
PMV mudou menos com temperatura interna de clima para clima do que se poderia esperar.
Humphreys [37] confirmou este fenómeno numa ampla variedade de climas. A taxa de variação da
temperatura com o PMV é caracteristicamente muito menor de uma pesquisa para outra do que é em
qualquer pesquisa em particular (figura 9). O corolário desta descoberta é que nos inquéritos de
terreno a temperatura de conforto está intimamente correlacionada com a temperatura média
medida. Este caso foi considerado em pesquisas realizadas ao longo de uma ampla variedade de
climas interiores (figura 10). Um efeito semelhante foi encontrado quando os dados foram
32
colecionados ao longo de um ano a partir de um determinado grupo: pesquisas no Paquistão e na
Europa [32] foram realizadas em intervalos mensais durante todo o ano (figura 11). A variedade de
temperaturas interiores, especialmente no Paquistão, é notável. A forte relação com a temperatura
de conforto é clara.
Figura 9 – Variação do PMV com a temperatura média, cada ponto é o valor médio de cada pesquisa [32]
Figura 10 – Variação da temperatura de conforto com a temperatura média indoor; em vários estudos
realizados por todo o mundo estudo [32]
33
Figura 11 - Variação da temperatura de conforto com a temperatura média indoor; num conjunto
particular de climas; Europa (linha traçada), e Paquistão mas em diferentes partes do ano [32].
Um exemplo de como efetivamente as medidas de adaptação podem ser usadas para
alcançar o conforto, é possível observar na figura 12 a proporção real de indivíduos confortáveis
entre os trabalhadores de escritório no Paquistão em diferentes temperaturas interiores. Os dados
foram recolhidos ao longo de um período de um ano, de modo que a temperatura de conforto foi
mudando continuamente. Os principais meios com que esses trabalhadores tiveram de controlar o
seu conforto foi: mudando as suas roupas e usando o movimento do ar, com ventiladores disponíveis
em todos os escritórios paquistaneses. A curva mostra a probabilidade média de conforto calculada
através da análise de Probit, este modelo é um tipo de regressão em que a variável dependente só
pode ter dois valores. Cada ponto representa a proporção de indivíduos confortáveis numa
determinada cidade, num determinado mês.
34
Figura 12 – Paquistão, a proporção de utilizadores de escritório que estiveram confortáveis a diferentes
temperaturas indoor. Em várias ocasiões os usuários estiverem em desconforto nulo. Conclui-se que os
edifícios no Paquistão encontram-se confortáveis num intervalo de temperaturas entre 20 e 30ºC [32].
Existem basicamente três categorias de adaptação térmica: comportamental, fisiológica e
psicológica [32]. Este último, sendo uma perceção e reação térmica alterada devido a experiências e
expectativas passadas, é um fator importante para explicar a diferença entre as observações de
campo e previsões do PMV (baseado no modelo estático) em edifícios naturalmente ventilados.
Nestes edifícios a relação com as temperaturas exteriores é duas vezes mais forte que o previsto.
3.4.1. Adaptação Física
O corpo tem vários mecanismos de regulação térmica para sobreviver em ambientes de
temperaturas drásticas. Num ambiente frio o corpo utiliza vasoconstrição, o que reduz o fluxo de
sangue para a pele, a temperatura da pele e a dissipação de calor. Num ambiente acolhedor, a
vasodilatação aumenta o fluxo sanguíneo para a pele, transporte de calor, a temperatura da pele e a
dissipação de calor. Se há um desequilíbrio, apesar dos ajustes vasomotores listados acima, num
ambiente quente a produção de suor vai começar e fornecer arrefecimento evaporativo. Se isto não
for suficiente, a hipertermia irá acontecer, em conjunto, a temperatura do corpo pode chegar a 40 ° C
e um acidente vascular cerebral pode ocorrer. Num ambiente frio tremendo começam a surgir
tremores, involuntariamente, forçando os músculos para o trabalho e aumentando a produção de
calor até um fator de 10. Se o equilíbrio não for restaurado, a hipotermia irá acontecer, o que pode
ser fatal. Ajustes a longo prazo para temperaturas extremas de alguns dias a seis meses podem
resultar em ajustes cardiovasculares e endócrinos. Um clima quente pode criar um aumento do
volume sanguíneo, melhorando a eficácia da vasodilatação, melhor desempenho do mecanismo de
suor, e o reajuste de preferências térmicas. Em condições de frio, a vasoconstrição pode tornar-se
permanente, resultando na diminuição do volume sanguíneo e aumento do metabolismo do corpo
[38].
35
3.4.2. Adaptação Comportamental
Em edifícios ventilados naturalmente os ocupantes tomam várias ações para se manterem
confortáveis quando as condições internas derivam para desconforto. Janelas e ventiladores,
persianas/sombras, mudando a roupa, o consumo de alimentos e bebidas são algumas das
estratégias adaptativas comuns. Entre essas, janelas de ajuste é o mais comum. Os ocupantes que
tomam esse tipo de ações tendem a sentir se melhor em temperaturas mais elevadas do que
aqueles que não o fazem [39].
Essas ações comportamentais influenciam significativamente as entradas de simulação de
energia, e as atuais pesquisas têm vindo a desenvolver modelos de comportamento para melhorar a
precisão dos resultados da simulação. Por exemplo, há muitos modelos da abertura de janelas que
foram desenvolvidos até à data, mas não há consenso sobre os fatores que desencadeiam a
abertura de uma janela [40].
3.4.3. Efeitos de ventilação natural no conforto térmico
Muitos edifícios usam uma unidade de AVAC para controlar o seu ambiente térmico. Outros
edifícios são naturalmente ventilados e não confiam em tais sistemas mecânicos para proporcionar
conforto térmico. Dependendo do clima, isso pode reduzir drasticamente o consumo de energia. Às
vezes, é visto como um risco, porém, as temperaturas interiores podem ser muito radicais se o prédio
for mal projetado. Edifícios ventilados naturalmente adequadamente projetados mantem as
condições internas dentro da faixa onde abrir janelas e usar ventiladores no verão ou vestir roupa
extra no inverno pode manter as pessoas confortáveis termicamente.
3.4.4. Relação com o Clima Exterior Humphreys [9] determinou a temperatura de conforto interior através de uma série de
pesquisas realizadas em todo o mundo e comparou-as com a temperatura média mensal exterior no
momento da pesquisa. Os resultados são mostrados na figura 13. Foi verificada uma clara divisão
entre as pessoas em edifícios naturalmente ventilados no momento da pesquisa e aqueles em que
os edifícios foram aquecidos ou resfriados. A relação no caso dos edifícios com ventilação natural foi
aproximadamente linear. Para edifícios aquecidos e refrigerados a relação foi mais complexa.
36
Figura 13 – Variação da temperatura de conforto com a temperatura média do mês. Cada ponto
representa um estudo à parte [32]. É possível distinguir os prédios com ventilação natural e os com
sistema de arrefecimento/aquecimento.
Num outro estudo realizado por Dunn et al. [26] foi feita uma divisão entre os edifícios
equipados com sistemas de ar condicionado central e aqueles que são naturalmente ventilados,
onde se argumenta que as expectativas dos ocupantes de cada um dos dois tipos de edifício são
diferentes. No entanto, parece pouco provável que os utilizadores devam modificar as suas respostas
em relação ao edifício, com base nas suas expectativas de serviços de construção. De facto, essa
distinção não é apoiada por evidências em ensaios fora de laboratórios [41]. Assim, tem sido
argumentado que apenas o uso da temperatura exterior para calcular as temperaturas de conforto
ignora uma série de outros fatores, como a humidade e o movimento do ar. A temperatura de
conforto é claramente uma função de mais do que apenas a temperatura exterior, tal como já foi
apontado anteriormente. A relação é de certa forma uma 'caixa preta empírica", porque as
interligações não estão totalmente definidas.
3.4.5. Sensibilidade térmica do individuo
A sensibilidade térmica de um indivíduo é quantificada pelo fator Fs, que assume valores
mais elevados para os indivíduos com menor tolerância a condições térmicas não-ideais. Este grupo
inclui mulheres grávidas, pessoas com deficiência, bem como as pessoas cuja idade está abaixo dos
catorze ou acima de sessenta, que é considerado idade adulta. A literatura existente fornece
evidências consistentes de que a sensibilidade de superfícies quentes e frias diminui com a idade.
Há também algumas evidências de uma redução gradual na eficácia do corpo na termorregulação
após a idade de sessenta anos. Isto acontece principalmente devido a uma resposta mais lenta dos
mecanismos de oposição na parte inferior do corpo, que são usados para manter a temperatura no
37
centro do corpo em valores ideais [42]. Fatores situacionais incluem a saúde, atividades psicológicas,
sociológicas e profissional das pessoas.
3.4.6. Diferenças Sexuais
Embora as preferências de conforto térmico entre os sexos pareçam ser pequenas, existem
algumas diferenças. Estudos descobriram que os homens relatam desconforto devido ao aumento da
temperatura muito mais cedo do que as mulheres. Os homens também estimam níveis mais altos de
sensação de desconforto do que as mulheres. Um estudo recente testou homens e mulheres nas
mesmas roupas de algodão, realizando trabalhos mentais, enquanto relatavam o seu conforto
térmico em função da temperatura em mudança. Frequentemente, as mulheres preferem
temperaturas mais altas. No entanto, enquanto as mulheres foram mais sensíveis a temperaturas, os
homens tendem a ser mais sensíveis aos níveis de humidade relativa [43].
3.4.7. Pessoas nos Edifícios
Os edifícios diferem num inúmero de maneiras: para além da sua forma física individual,
diferem nos seus serviços, em que tipo de sistema de aquecimento ou arrefecimento é fornecido e se
ele é usado; nas possibilidades que eles oferecem para os ocupantes de controlar o seu ambiente e
nas políticas de gestão sobre se há um código de vestuário e assim por em diante.
Há outros aspetos na construção de edifícios que afetam o conforto dos ocupantes. Leaman
e Bordass [44] demonstraram que existe uma maior tolerância por parte dos utilizadores em edifícios
em que os ocupantes têm maior acesso aos controlos das condições. Tolerância pode ser definida
como a facilidade dos ocupantes do edifício serem afetados por deficiências no ambiente térmico.
Baker et al. [45] identificam uma ‘’oportunidade adaptativa" oferecida por um edifício que vai
afetar o conforto dos seus ocupantes. Oportunidade adaptativa é geralmente interpretada como a
possibilidade de abrir uma janela, subir um estore, usar um ventilador, etc., mas também deve incluir
práticas de trabalho, código de vestuário e outros fatores que influenciam a interação entre o
ocupante e a construção. Mudanças no vestuário, atividades e postura e a promoção da circulação
do ar mudará as condições que as pessoas consideram confortáveis. Muitas das oportunidades de
adaptação disponíveis em edifícios não terão efeito direto sobre as condições de conforto, mas vai
permitir que os ocupantes possam alterar as condições de acordo com as suas necessidades. O
comportamento adaptativo real é uma amálgama de dois tipos de ações: a alteração das condições
de modo a estar de acordo com o conforto e a alteração da temperatura de conforto de modo a estar
de acordo com as condições prevalecentes. A gama de condições consideradas confortáveis é
afetada pelas características do edifício e pelas oportunidades de adaptação individual dos
ocupantes.
38
4. Descrição do Caso de Estudo
4.1. Localização
O caso de estudo apresentado no âmbito desta tese é o núcleo de Gabinetes 2N-14 usados
por docentes do Instituto Superior Técnico, sediado na Av. Prof. Doutor Aníbal Cavaco Silva, em
Oeiras. Este localiza-se no 2º andar do Tagus Park.
Figura 14 – Instituto Superior Técnico, campus Tagus Park [46]
4.2. Descrição detalhada
O núcleo 2N-14 situa-se na fachada oeste do edifício, virado para Sudoeste como se vê na
figura 15.
Figura 15 – Vista Aérea do Edifício do Tagus Park [47]
39
As plantas dos gabinetes são apresentadas na figura 16.
Figura 16 – Planta dos gabinetes dos docentes do núcleo 2N-14
Como se pode observar, existem 14 gabinetes e um corredor. Em 7 destes gabinetes, o sol
incidirá diretamente na parte envidraçada da sala ao fim da tarde.
O primeiro gabinete a sul do corredor tem 17m2 e os restantes 14m2, a norte do corredor o
primeiro gabinete tem 22m2 e os restantes 19m2.
4.3. Sistema de Controlo Atual
O controlo dos gabinetes é feito recorrendo á tecnologia de domótica KNX. Este sistema
permite controlar a iluminação e o sistema AVAC. Para isso dispõe de um controlador de iluminação
e de temperatura no gabinete.
Os dados medidos pelos sensores são possíveis de ser lidos no interface do sistema (figura
17). Este sistema é composto por um painel de interface onde também é possível controlar o nível de
iluminação (ON-OFF) e ajustar uma temperatura padrão que o utilizador desejar.
40
Figura 17 – Interface do utilizador do atual sistema instalado nos gabinetes a serem testados
O sistema instalado até à data é muito simplificado; o utilizador tem de ajustar uma
temperatura de conforto o (setpoint de temperatura) e o ar condicionado ligar-se-á consoante a
diferença de temperaturas entre o setpoint e a temperatura no interior da sala no mesmo instante. À
medida que a diferença de temperaturas diminui, também diminui a velocidade do ar condicionado.
Este sistema tem três velocidades possíveis e ainda a opção de desligado. Quando a
temperatura de conforto ajustada é igual ou 1ºC menor que a temperatura medida da sala, o AC liga-
se na velocidade 1. Quando se regista uma diferença de -2ºC, é acionada a velocidade 2, e maior ou
igual que -3ºC, a velocidade 3. Este nível de ordens é representado no anel de controlo na figura 18.
Figura 18 – Anel de controlo do sistema instalado
41
4.4. Sistema de Controlo Proposto
Este trabalho foi desenvolvido com o objetivo de desenvolver as capacidades de controlo do
sistema instalado e ainda a capacidade de ajustar um setpoint por um algoritmo de aprendizagem
como indicado na figura 19.
Figura 19 – Anel de controlo do sistema instalado desenvolvido.
Através deste novo algoritmo de controlo, será possível encontrar a temperatura de conforto
de cada usuário do gabinete e ainda aprender quais as velocidades do ar condicionado consoante a
sensibilidade do usuário, assim como o modelo térmico sala. O anel de controlo final é demonstrado
na figura 20.
Figura 20 – Anel de Controlo final com o algoritmo de aprendizagem
42
5. REINFORCEMENT LEARNING
5.1. Desenvolvimento Inicial de Algoritmos
O controlo de um sistema de gestão de energia tem o potencial para reduzir o consumo de
energia, aumentar a satisfação do ocupante e diminuir os custos de manutenção. Nos últimos 20
anos, inúmeros esquemas de controlo de supervisão têm sido propostos. O progresso rápido neste
campo é resultado do aumento da experiência industrial, da melhor compreensão da construção de
sistemas de energia, grandes avanços na disciplina de otimização e inteligência artificial, e, mais
importante, do uso de simulações de edifícios em computador. No entanto, apesar dos avanços
teóricos, o controlo baseado em regras ainda é dominante na prática. Aplicações bem-sucedidas de
abordagens avançadas de controlo para o a construção de sistemas de energia de supervisão
raramente são reportados porque os esquemas modernos de controlo ótimo são amplamente
considerados pelos praticantes como não confiáveis, excessivamente complexos em termos de
conceção, e de ajuste e manutenção demorada. A maioria dos métodos de otimização baseados em
modelos requerem modelos precisos do sistema de construção, que são muito complexos e o seu
tempo de convergência é longo [48].
Outra abordagem menos exigente computacionalmente consiste no ajuste de um modelo de
supervisão com controlador online, ou seja, em tempo real. No entanto, a sintonia online de um
controlador de supervisão não é uma tarefa fácil, uma vez que [49]:
1. A avaliação de uma decisão atual não pode ser determinada de forma isolada em cada
passo de tempo, mas deve basear-se num somatório dos custos num horizonte temporal.
Uma boa decisão será um compromisso entre os interesses de curto prazo e os interesses
de longo prazo (um chamado atraso na recompensa). Portanto, uma série de decisões ao
longo do horizonte temporal devem ser avaliadas em conjunto, como se o todo fosse
abrangido apenas por uma política.
2. Exemplos da relação entre o rendimento global e as decisões de controlo não podem ser
observadas diretamente ou calculadas explicitamente, como é o caso da aprendizagem
supervisionada, porque um modelo suficientemente preciso não está disponível. O algoritmo
de ajuste tem de aprender a partir de sua própria experiência ou através da gravação de
experiências anteriores.
3. Como a afinação é feita em tempo real, o desempenho durante o processo de ajuste também
é motivo de preocupação. O desempenho global pode realmente piorar se um período
demasiado longo do tempo é gasto na procura de uma estratégia de controlo ideal. No
entanto, o algoritmo não pode dizer se as decisões de controlo atuais são melhores do que
as decisões que nunca foram tentadas, se não for autorizado a explorar um território inédito.
43
Este problema é chamado equilíbrio entre a exploração (exploration) e aproveitamento
(exploitation) [49].
Pelos motivos mencionados, o Reinforcement Learning (RL) é um poderoso sistema sem
supervisão de aprendizagem [48], que tem sido amplamente estudada por investigadores como
Kaelbling, Littman, Moore, Barto, Sutton, Watkins e Mahadevan, todos eles autores de vários artigos
e livros sobre o tema, como já tem sido referenciado ao longo deste capítulo. RL é o nome dado a
um grupo de métodos para lidar com os problemas de aprendizagem, quando um agente tem de
encontrar o comportamento ótimo, interagindo com um ambiente desconhecido, envolvendo
geralmente um atraso na recompensa. Vários algoritmos de RL têm sido sugeridos, dependendo se a
função de valor de estado é aprendida ou a função de estado - ação é aprendida; e como os valores
de estado de ação são alterados. Entre muitos outros algoritmos RL, o Q-learning é considerado
como ''um dos avanços mais importantes de RL'', e favorecido por muitos pesquisadores para
aplicações práticas, pois é relativamente simples, converge de forma confiável e tem uma sólida
formação teórica [50]. O algoritmo Q-learning será explicado na secção 5.6.
5.2. Desvantagens e Pontos Fracos
Existem algumas limitações para o uso de RL. A dificuldade principal enfrentada é que os
métodos RL tendem a aprender muito lentamente [51]. Isso pode levar a um fraco desempenho em
ambientes dinâmicos. Outro ponto fraco dos métodos de RL é o equilíbrio entre a exploração e o
aproveitamento. Embora os agentes RL estejam a tentar alcançar um objetivo o mais rapidamente
possível (aproveitamento), devem também procurar saber mais informações sobre o seu ambiente, a
fim de melhorar o desempenho futuro (exploração).
A transferência do conhecimento de um agente para outro é outra dificuldade quando se
considera sistemas RL. Isto acontece devido ao facto de ser um método global de aprendizagem que
contém toda a informação obtida acerca do ambiente numa única função de valor.
O conhecimento obtido por um agente RL é muito específico para o ambiente em que o
agente operou, e não pode ser facilmente transferido para outro agente, mesmo que os ambientes
sejam muito semelhantes. Por exemplo, o conhecimento adquirido por um agente RL que aprendeu a
conduzir desde a cidade A até a cidade B não poderia ser transferido para um agente que estivesse
a tentar conduzir da cidade A até a cidade C. Mesmo que os domínios do problema sejam muito
semelhantes, e embora possa parecer que muito do conhecimento geral obtido a partir de um agente
possa beneficiar o outro, não existe um método eficiente para a transferência desse conhecimento.
44
5.3. Introdução, Conceitos e Elementos do Reinforcement
Nas próximas subsecções, todas as informações não referenciadas foram retiradas do livro
chamado “Reinforcement Learning - An Introduction’’ escrito por Sutton e A. G. Barto [52].
RL é aprender o que fazer - como mapear situações de ações - de modo a maximizar um
sinal de recompensa numérico. Ao agente que aprende não é dito que ações tomar, como na maioria
das formas de aprendizagem de máquina, mas em vez disso deve descobrir quais as ações que
produzem a maior recompensa por experimentação. Nos casos mais interessantes e desafiadores,
as ações podem afetar não só a recompensa imediata, mas também a próxima situação e, por isso,
todas as recompensas posteriores. Essas duas características - pesquisa de tentativa-e-erro e
recompensa adiada - são as duas características distintivas mais importantes do RL.
RL é definido não como caracterizando métodos de aprendizagem, mas por caracterizar um
problema de aprendizagem. Qualquer método que é bem adequado para resolver esse problema, é
considerado um método de RL.
A ideia básica consiste simplesmente capturar os aspetos mais importantes do problema real
diante de um agente disposto a aprender e a interagir com o seu ambiente para atingir um objetivo.
Claramente, esse agente tem de ser capaz de detetar o estado do meio ambiente em certa medida e
deve ser capaz de tomar ações que afetem o estado. O agente também deve possuir uma ou mais
metas relativas ao estado do ambiente. A formulação pretende incluir apenas estes três aspetos -
sensação, ação e objetivo - nas suas formas mais simples possíveis, sem banalizar nenhum deles.
Um dos desafios que surgem no RL e não em outros tipos de aprendizagem é o trade-off
entre a exploração e aproveitamento. Para obter um grande montante de recompensa, um agente de
RL deve preferir ações que tenha encontrado e tentado no passado para ser eficaz na produção da
mesma. Mas, para descobrir essas ações, tem que tentar ações que ainda não escolheu antes. O
agente tem de explorar o que já sabe, a fim de obter uma recompensa, mas também tem de explorar
a fim de fazer melhores seleções - ações no futuro. O dilema é que nem exploração, nem o
aproveitamento podem ser executados exclusivamente sem falhar na tarefa. O agente deve tentar
uma variedade de ações e, progressivamente, favorecer aquelas que parecem ser melhores. Numa
tarefa estocástica, cada ação deve ser tentada inúmeras vezes para obter uma estimativa digna de
confiança da sua recompensa esperada.
Além do agente e do ambiente, é possível identificar quatro principais subelementos de um
sistema de RL: uma política, uma função de recompensa, uma função de valor, e, opcionalmente, um
modelo do ambiente.
A política define o caminho do agente de aprendizagem de se comportar num determinado
momento. De grosso modo, a política é um mapeamento de estados do ambiente para ações a
45
serem tomadas em função desses estados. Este mapeamento corresponde ao que em Psicologia
seria chamado um conjunto de regras estímulo-resposta ou associações. Em alguns casos, a política
pode ser uma função simples ou tabela de referência, enquanto em outros pode envolver extensa
computação, como um processo de busca. A política é o núcleo de um agente de RL, no sentido de
que por si só é suficiente para determinar o seu comportamento. Em geral, as políticas podem ser
estocásticas.
A função de recompensa define o objetivo de um problema de RL. Mapeia cada estado (ou
par estado-ação) do ambiente de um único número, uma recompensa, indicando o desejo intrínseco
daquele estado. O único objetivo de um agente de RL é o de maximizar a recompensa total que
recebe a longo prazo. A função de recompensa define quais são os bons e os maus eventos para o
agente. Num sistema biológico, não seria inapropriado identificar recompensas como prazer e dor.
Eles são os recursos imediatos e definidores do problema enfrentado pelo agente. Como tal, a
função de recompensa deve necessariamente ser inalterável pelo agente. Pode, no entanto, servir
como uma base para a alteração da política. Por exemplo, se uma ação selecionada pela política é
seguida por uma baixa recompensa, então a política pode ser alterada para selecionar uma outra
ação nessa mesma situação no futuro. Em geral, as funções de recompensa podem ser estocásticas.
Enquanto que a função de recompensa indica o que é bom num sentido imediato, uma
função de valor especifica o que é bom a longo prazo. O valor de um estado é a quantidade total de
recompensa que um agente pode esperar a acumular ao longo do futuro, a partir desse estado. Para
fazer uma analogia humana, as recompensas são como o prazer (se altas) e dor (se baixas), ao
passo que os valores correspondem a um juízo mais refinado e perspicaz de quão satisfeito ou
insatisfeito estamos de que nosso ambiente está num estado particular.
É dada preferência às ações que provocam estados de maior valor, não mais alta
recompensa, pois essas ações obtêm a maior recompensa a longo prazo. No momento da decisão e
planeamento, a quantidade derivada do chamado valor é aquela a que damos mais atenção.
Infelizmente, é muito mais difícil determinar os valores do que determinar recompensas.
Recompensas são, basicamente, dadas diretamente pelo meio ambiente, mas os valores devem ser
estimados repetidamente ao longo das sequências de observações de um agente ao longo de toda
sua vida útil. De facto, o componente mais importante de quase todos os algoritmos de RL é um
método para estimar os valores de forma eficiente.
O quarto e último elemento de alguns sistemas de RL é um modelo do ambiente. Este tenta
imitar o comportamento do meio ambiente. Por exemplo, dado um estado e uma ação, o modelo
pode prever o próximo estado resultante e a próxima recompensa. Vários modelos são usados para
o planeamento, ou seja, qualquer forma de decidir sobre um curso de ação, considera possíveis
situações futuras antes de serem realmente experimentadas. A incorporação de modelos de
planeamento em sistemas de RL é um desenvolvimento relativamente novo. No entanto, aos poucos
tornou-se claro que os métodos de aprendizagem de reforço estão intimamente relacionados com os
46
métodos de programação dinâmica, que fazem uso de modelos, e que por sua vez estão
intimamente relacionados com os métodos de planeamento de espaço de estado.
5.4. Arquitetura de Reinforcement Learning
O problema de RL é destinado a ser um enquadramento simples para o problema de
aprender a partir duma interação para alcançar um objetivo. O aprendiz e o tomador de decisões são
chamados de agente. O único elemento com que o agente interage, ou seja, tudo o que está para
além das suas fronteiras, é chamado o meio ambiente. Estes interagem continuamente, o agente
selecionando ações novas e o meio ambiente respondendo a essas ações e apresentando novas
situações ao agente. O ambiente também gera recompensas, valores numéricos especiais que o
agente tenta maximizar com o tempo. A especificação completa de um ambiente define uma tarefa,
um elemento crucial no problema de RL.
Mais especificamente, o agente e o ambiente interagem em cada sequência de passos de
tempo discretos, t = 0, 1, 2, 3…. Em cada passo de tempo t, o agente recebe uma representação do
estado do meio ambiente st ϵ S, onde S é o conjunto de estados possíveis, e com base nisso
seleciona um ação at ϵ A(st), onde A(st) é o conjunto de ações disponíveis no estado st. Um passo
mais tarde, em parte como consequência de sua ação, o agente recebe uma recompensa numérica
rt+1 ϵ R, e encontra-se num novo estado st+1.
Figura 21 – Esquema do relacionamento entre estado – ação – recompensa [52].
Em cada passo de tempo, o agente implementa um mapeamento dos estados para
probabilidades de seleção de cada ação possível. Este mapeamento é chamado como política do
agente e é indicado como πt, onde πt(s,a) é a probabilidade de que at = a se st = s. Os métodos de
RL especificam como o agente muda sua política, como resultado da sua experiência. O objetivo do
agente, em termos genéricos, é maximizar a quantidade total de recompensa que recebe ao longo do
tempo.
47
5.5. Q-learning
Q-learning é uma técnica de reforço de aprendizagem livre de modelos de ambiente. Pode
ser usado para encontrar uma política de ação-seleção ideal para qualquer processo finito de
decisão de Markov (MDP) [52]. Funciona através da aprendizagem de uma função de valor de ação
que dá o valor esperado de tomar uma determinada ação em um determinado estado e finalizado
pela política ótima posteriormente.
A política de decisão consiste numa regra que o agente segue em ações de seleção, dado o estado
em que se encontra. Quando a função valor-ação é aprendida, a política ótima pode ser construída,
bastando selecionar a ação com o valor mais alto em cada estado. Um dos pontos fortes de Q-
learning é a capacidade de comparar a utilidade esperada das ações disponíveis sem necessitar de
um modelo do ambiente. Além disso, Q-learning pode lidar com problemas com transições
estocásticas e recompensas, sem a necessidade de qualquer adaptação. Provou-se que para
qualquer processo finito de decisão, Q-learning, eventualmente, encontra uma política ótima, no
sentido em que o valor esperado da recompensa total sobre todos os passos sucessivos, a partir do
estado atual, é o máximo atingível.
Figura 22 – Esquema com a relação entre o sistema (meio ambiente) e o agente (com a função de criticar e atuar) [53]
48
Um modelo Q-learning é composto por um agente, um conjunto de estados S e um conjunto
de ações por estado A. Ao realizar uma ação, o agente pode passar de um estado para outro. A
execução de uma ação num estado específico fornece uma recompensa ao agente (um número real
ou natural). O objetivo do agente é o de maximizar a sua recompensa total feito através da
aprendizagem que a ação é o ideal para cada estado, no sentido de o valor esperado da recompensa
total sobre todos os passos futuros a partir do estado atual, e não apenas a recompensa imediata
resultante da par ação-estado.
Assim, o algoritmo tem uma função que calcula a qualidade de uma combinação de estado-
ação:
(Eq. 3.1)
Antes de aprendizagem começar, o valor Q retorna um valor fixo arbitrário, escolhido por
quem implementa o sistema. Cada vez que o agente seleciona uma ação, é selecionada uma
recompensa e um novo estado que tanto pode depender do estado anterior como da ação
selecionada. O núcleo do algoritmo é, então, uma atualização do valor iterado que vai corrigir o valor
antigo com base na nova informação.
(Eq. 3.1)
49
6. Algoritmo de Reinforcement Learning
Desenvolvido
Neste capítulo é apresentada a construção do algoritmo de aprendizagem reforçada. São
abordados todos os parâmetros de controlo escolhidos para a implementação do programa, e
explicado todo o código programado.
Este capítulo é dividido em vários subcapítulos que descrevem: a interface criada entre o
utilizador e o sistema, um algoritmo que encontra a temperatura de conforto ideal do utilizador e um
algoritmo que incita uma aprendizagem ao sistema de ar condicionado de que velocidade ligar,
dependendo da temperatura do gabinete.
6.1. Implementação
Foi criado um algoritmo constituído por duas partes:
1. modo em que o sistema aprende a temperatura ideal de conforto (necessária a intervenção
do utilizador na interface do programa);
2. modo usado depois de a temperatura de conforto ter sido descoberta, capaz de aprender
qual a velocidade do sistema de ar condicionado (AC) ligar consoante a temperatura do
gabinete e o estado de conforto do ocupante (desnecessária a intervenção do ocupante).
Este modo chama-se ‘Controlo Automático’
Quando o programa inicia, é apresentado ao utilizador uma interface que permite o início do
controlo do AC através de um botão. Esta interface vai indicar a temperatura atual da sala e a
velocidade do AC. Existe um slider, permitindo que o utilizador mude a velocidade do AC como
desejar, e ainda um botão capaz de controlar as luzes do gabinete. É apresentado um gráfico com a
temperatura da sala e a velocidade do AC desde que o controlo foi ligado. Por fim existe um campo
chamado ‘Aprendizagem’ onde se pode observar em que modo o algoritmo se encontra. Esta
interface é apresentada na figura 23.
50
Figura 23 – Interface do programa inicial antes do funcionamento
6.2. Temperatura ideal do utilizador
Este cenário passa-se num gabinete do IST no campus TagusPark. De modo a podermos
construir um perfil de temperatura, conforto e sensibilidade para uma certa pessoa, devemos
começar por descobrir qual a temperatura ideal de conforto padrão para o utilizador.
Com esse objetivo foi feito um algoritmo de aprendizagem reforçada com a equação do
reforço a ser dependente do interesse do utilizador em mudar o ambiente da sala por iniciativa
própria. Neste modo o utilizador terá liberdade total para proceder às alterações que considerar mais
convenientes para se encontrar num estado de conforto ideal. Esta parte do algoritmo está apenas
limitada a verificar se o utilizador alterou o AC e em que temperaturas correntes da sala o fez. É
assumido que a temperatura da sala em que se verificou menos, ou nenhumas, alterações por parte
do utilizador num certo espaço de tempo, é a temperatura de conforto ideal deste utilizador.
51
Algoritmo:
1. Inicia Matriz das probabilidades (temperaturas,ΔAC)
2. While nenhuma probabilidade < 0.85
3. Lê Temperatura do gabinete
4. Verifica se utilizador mexeu no Ar Condicionado
5. Recompensa dada em função da diferença de nível de velocidades do AC
��� = ������ !"!� �� "#��$ �$% − ������ !"!� �� "�'"�% (Eq. 4)
$����(�#)" = * − ��� (Eq. 5)
6. Rearranja a matriz das probabilidades de modo a dar ser sempre igual a 1
7. Compasso de espera de 5 minutos
8. Repete pontos 3 a 7 enquanto ponto 2 não é validado
No seguimento deste algoritmo, é-nos possível dizer qual é a temperatura ideal de conforto
padrão do utilizador pois a matriz de probabilidades ao fim de um certo tempo terá, na coluna do
ΔAC = 0, uma das probabilidades superior a 0.85 (valor limite estabelecido para ser considerado
válido). A linha em que isto suceder corresponderá à temperatura procurada. O exemplo da matriz na
tabela 1 ilustra este modo
Tabela 1 – As probabilidades iniciam-se com 0.5, pois apenas existem duas hipóteses, se o utilizador alterou ou não, o AC. Como as probabilidades se alteram depende da mudança de velocidade
T[ºC] ��� = 0 ��� > 0
22 0.5 0.5
23 0.5 0.5
24 0.5 0.5
25 0.5 0.5
26 0.5 0.5
27 0.5 0.5
28 0.5 0.5
52
Tabela 2 – Matriz onde é observado o resultado para um utilizador onde a temperatura de conforto ideal é
de 25ºC.
T[ºC] |���| = � |���| , �
21 0.5 0.5
22 0.5 0.5
23 0.5 0.5
24 0.723 0.2767
25 0.89 0.11
26 0.54 0.46
27 0.7 0.3
28 0.5 0.5
De seguida é apresentado na figura 24 um fluxograma explicando como o algoritmo funciona
e na figura 25 são descritos os elementos mostrados na interface durante o modo ‘Temperatura de
conforto’.
53
Figura 24 – Funcionamento do algoritmo Temperatura de Conforto.
Figura 25 – Interface da Aplicação durante o 1º modo - Temperatura de Conforto.
6.3. Controlo Automático
O objetivo neste modo é que o sistema aprenda qual a velocidade da ventoinha que deve ser
ligada, ou não ligar de todo, consoante a temperatura atual e a temperatura ideal de conforto do
utilizador. Assim a interface mudará e terá um aviso colocado “Controlo Automático” a avisar que o
segundo modo está em funcionamento, como mostrado na figura 26.
54
Figura 26 - Interface da Aplicação durante o 2º modo - Controlo Automático
É de notar que o agente irá aprender qual a velocidade ideal do AC com base nas escolhas
certas e erradas. Deste modo, no início, não tem qualquer conhecimento de qual a velocidade do AC
que deve ligar, seja qual for a temperatura do gabinete e seja qual for a temperatura de conforto.
Consequentemente fazemos um mapeamento da política do agente, isto é, as probabilidades de que
velocidade ligar primeiro, e obviamente, no início, todas elas serão iguais:
-����% = -����% = -���% = -���*% =
�
.= �. �
(Eq. 6)
55
O algoritmo é iniciado com a leitura do estado (�)�"!� �% do gabinete, neste caso, a
temperatura interior.
De seguida começará a ligar o ar condicionado em um nível aleatoriamente escolhido (AC =
0,1,2 ou 3) consoante a sua política (probabilidades). No espaço temporal programado de cinco
minutos, a temperatura do gabinete será alterada e lida mais uma vez. Este será o estado �� + �%.
O reforço, ou recompensa, será dependente do estado do conforto da pessoa (PMV), e será
dada ao agente na forma de um número, o quanto mais elevado melhor. Esta recompensa terá um
impacto na política do agente, a qual terá efeitos no remapeamento dos possíveis estados, ou seja,
nas probabilidades de seleção de cada ação possível.
Sabendo a temperatura de conforto ideal já antes aprendida pelo algoritmo anterior, temos
uma expressão baseada no PMV de:
-01 = 2�"�'"�% − 2���#3�$��% (Eq. 7)
Para fim de melhor compreensão do leitor, é apresentado um exemplo onde é assumida uma
Temperatura de Conforto de 25ºC, pelo que os próximos resultados serão apresentados consoante
esta.
Temos então os seguintes resultados:
Temperatura (°C) 22 23 24 25 26 27 28
PMV -3 -2 -1 0 1 2 3
Tabela 3 – Relação entre a Temperatura do gabinete e o PMV do utilizador consoante a eq. 7
Como a recompensa é maior quanto maior for o conforto, temos que expressá-la da seguinte
forma:
4����(�#)" = * − |-01| (Eq. 8)
Deste modo, a recompensa terá um valor máximo igual a 3 que corresponde ao valor do
PMV neutro �-01 = �%.
Consoante a recompensa, haverá um rearranjo das probabilidades da política do agente.
Consequentemente, a probabilidade correspondente à velocidade do AC recompensada subirá
sempre no valor de $����(�#)"/*�, ou seja, 0.1 se a recompensa for de 3, e 0.033 se a
recompensa for de 1. As outras 3 probabilidades (correspondentes às restantes 3 velocidades do AC
que não foram escolhidas) descerão cada uma um terço da probabilidade que subiu, ou seja,
$����(�#)"/5�.
56
De seguida na figura 27 é apresentado um fluxograma para melhor entendimento do
funcionamento do algoritmo.
Figura 27 – Fluxograma do Algoritmo de aprendizagem do controlo do Ar Condicionado
57
Abaixo são apresentados, em forma de tabela, dois exemplos de como o programa se irá
comportar com algumas temperaturas lidas no gabinete.
Figura 28 – Exemplos de como funciona o algoritmo para duas Temperaturas diferentes lidas na sala (a –
27ºC; b – 26ºC)
58
7. Resultados Experimentais
Neste capítulo serão apresentados os resultados obtidos e feita uma análise dos mesmos. O
algoritmo foi testado em quatro gabinetes distintos do núcleo do IST, campus Tagus Park. Os
resultados são apresentados por gabinete e, de seguida, é feita uma análise do comportamento de
cada um dos modos do algoritmo.
Durante o período experimental foi possível testar o algoritmo, mais que uma vez, em certos
gabinetes e observar diferentes linhas de aprendizagem, principalmente devido a fatores ambientais
externos como precipitação e tempo de exposição solar do gabinete e até o abrir e fechar portas.
Enquanto a aplicação foi testada, foi também atualizada conforme eram verificados erros de
programação, e foi possível observar certas dificuldades na execução do algoritmo.
É de notar que em qualquer figura futuramente apresentada, dos históricos do AC e da
temperatura, o início da linha vermelha (temperatura de conforto) representa a mudança do 1º modo
(temperatura de conforto) para o 2º modo (controlo automático).
7.1. Algoritmo com temperatura de conforto fixa
7.1.1. Gabinete 2N-14.16
No gabinete 2N-14.16, observa-se que o 1º modo esteve ativo até 19 espaços temporais, isto
é, durante 1h35, onde aprendeu uma temperatura de conforto de 26ºC (figura 29).
Figura 29 –Teste realizado no gabinete 2N-14.16
A partir da iteração 20, o sistema passou a ser controlado automaticamente, e observa-se o
início das ordens do AC a ser ligado aleatoriamente, pois todas as velocidades têm sensivelmente
probabilidades semelhantes de serem ligadas.
-1
0
1
2
3
4
22
23
24
25
26
27
28
0 10 20 30 40 50 60 70 80 90 100
Vel
oci
dad
e A
C
Tem
per
atu
ra S
ala
Espaços Temporais (5min)
Temperatura gabinete T. Conforto AC
59
Na iteração 30 até à 53, ou seja, após 2h30 da aplicação ter sido ligada, nota-se que a
temperatura do gabinete começa a ser constante à volta do valor de 26.5ºC, com uma diferença de
0.5ºC para a temperatura de conforto, inicialmente aprendida. No entanto ainda se assiste a uma
elevada aleatoriedade nas velocidades do AC até à iteração 45, 3h45 depois. Observa-se ainda, de
seguida, um valor constante na temperatura e na velocidade do AC até à iteração 53, 4h25 depois do
algoritmo ter sido iniciado.
Da iteração 53 em diante, verifica-se um comportamento semelhante ao descrito entre as
iterações 20-53, possivelmente iniciado por um elemento externo, como por exemplo, uma janela ou
porta aberta.
7.1.2. Gabinete 2N-14.24
No gabinete 2N-14.24 (figura 30), a aplicação ficou ligada durante 4h35, e deparou-se com a
ativação do 2º modo na iteração 18. O 1º modo ficou ligado durante 1h30 e registou uma temperatura
de conforto de 25ºC.
Figura 30 - Teste realizado no gabinete 2N-14.24
É possível observar uma boa performance em termos de diferença de temperaturas entre a
temperatura de conforto e a temperatura em tempo real do gabinete. Apesar de existir a já esperada,
aleatoriedade nas velocidades do AC nas primeiras iterações do 2º modo (18-25), constata-se, com
sucesso, uma temperatura aproximadamente constante em torno da temperatura de conforto (24.6ºC
– 25.4ºC). Nos últimos 50 minutos regista-se um abrupto aumento da temperatura do gabinete,
provavelmente devido à abertura da porta para o corredor, pois o corredor está constantemente com
uma temperatura mais elevada que a dos gabinetes, com AC ligado.
-1
0
1
2
3
4
24
24.5
25
25.5
26
26.5
27
0 10 20 30 40 50
AC
Tem
per
atu
ra S
ala
Espaços Temporais (5min)
Temperatura gabinete T. Conforto AC
60
7.1.3. Gabinete 2N-14.28
O gabinete 2N-14.28 é diferente dos espaços anteriores, pois é um gabinete interior e é um
gabinete partilhado por mais de um utilizador.
Em certas simulações foi-se deparando com resultados inesperados, visto que a temperatura
da sala certas vezes convergia para uma temperatura diferente da temperatura de conforto
aprendida (+/- 1ºC), como se pode observar no teste do gabinete 2N-14.28 (figura 31). Foi então
concluído que a temperatura de conforto de um certo utilizador, mesmo depois de aprendida, poderia
mudar ao longo do dia, e se o algoritmo tivesse esta mudança em conta, poderia operar com uma
melhor performance do que a observada. Estas alterações podem ser motivadas pela mudança de
utilizador, com um nível de conforto diferente, ou pelo simples facto de haver mais uma pessoa na
sala.
Figura 31 – Teste ao gabinete 2N-28 onde se verifica uma convergência da temperatura da sala para -1ºC da temperatura de conforto aprendida
Assim, sabendo que o algoritmo consiste em dois modos separados (temperatura de conforto
e controlo automático), e tendo em consideração que o controlo automático funciona em função da
temperatura de conforto aprendida anteriormente, era vantajoso que a temperatura de conforto
aprendida pudesse mudar ao longo do controlo automático, caso o algoritmo notasse um certo
desconforto do ocupante.
Foi assim feita a seguinte alteração no algoritmo do controlo automático: caso o utilizador dê
pelo menos três ordens contrárias à do sistema, o algoritmo verifica qual foi a mudança, e a
temperatura de conforto terá uma alteração. Se esta terceira ordem for ligar o AC na velocidade 2 ou
3, a temperatura de conforto descerá 1ºC, pois supõe-se que o ocupante estava com demasiado
calor. Caso a velocidade ligada seja 0 ou 1, a temperatura de conforto subirá 1ºC, pois o utilizador
estava com frio.
-0.5
0
0.5
1
1.5
2
2.5
3
3.5
24
24.5
25
25.5
26
26.5
0 10 20 30 40 50 60
AC
Tem
per
atu
ra S
ala
Espaços Temporais (5min)
Temperatura Gabinete T. Conforto AC
61
7.2. Algoritmo com Temperatura de Conforto Ajustável
7.2.1. Gabinete 2N-14.16
Com a nova versão do algoritmo, constata-se uma performance melhor comparada com a
anterior, e uma capacidade de o sistema conseguir incutir uma temperatura à sala bem mais próxima
da temperatura de conforto.
É possível observar, na figura 32, a mudança para o controlo automático na iteração 13,
1h05 depois da aplicação ter sido acionada, com uma temperatura de conforto aprendida de 24ºC,
deparando-se logo de seguida com uma rápida mudança de temperatura de conforto para os 26ºC.
Esta abrupta mudança é justificada pelas ordens anteriores, dadas pelo ocupante, para continuar a
ter o AC na velocidade 0. Como se verifica, seis ordens seguidas de acionar o AC na velocidade 0
geraram uma subida de 2ºC na temperatura de conforto. No restante tempo, até ao fecho da
aplicação, verifica-se uma boa leitura da temperatura do gabinete, nunca ultrapassando a diferença
de +/- 0.3ºC em relação à temperatura de conforto.
Figura 32 – Teste ao gabinete 2N-14.16 onde se observa uma mudança da temperatura conforto de 2ºC
durante o controlo automático
7.2.2. Gabinete 2N-14.14
Na simulação observada na figura 33, houve um comportamento muito semelhante ao anterior,
caracterizando uma temperatura de conforto aprendida no 1º modo de 26ºC, com uma rápida
descida de 2ºC, 50 minutos depois de ter sido acionado o controlo automático. Esta alteração foi
justificada pelas ordens dadas pelo utilizador ao sistema de ligar a velocidade 3 repetidamente
durante as iterações 24 e 30.
-1
0
1
2
3
4
23
23.5
24
24.5
25
25.5
26
26.5
0 10 20 30 40 50
AC
Tem
per
atu
ra S
ala
[ºC
]
Espaços Temporais (5min)
Temperatura Gabinete T. Conforto AC
62
Figura 33 – Teste simulado no gabinete 2N-14.14 onde se verificou uma descida na temperatura de conforto de 2ºC
7.3. Limitações Verificadas
Durante a realização deste projeto, foram notadas algumas limitações, que, sendo resolvidas
poderiam permitir melhoramentos consideráveis nos resultados.
A maior parte do código depende de recolha de dados através de um servidor capaz de ler a
temperatura e a velocidade do AC através de URLs próprios, abertos para qualquer utilizador de
Matlab e Internet. Infelizmente este trabalho também estava em curso durante a fase de testes do
programa o que provocou muitas vezes resultados pouco satisfatórios durante as primeiras semanas.
Era igualmente comum, na primeira semana de testes, o servidor ir abaixo, fazendo com que
dias completos do funcionamento do programa fossem desperdiçados. Com isto a fase de testes do
algoritmo ocorreu muito perto do limite de entrega do trabalho, impossibilitando novas e melhoradas
versões do programa face a possíveis retoques e alterações no código, embora se tenham
conseguido fazer melhorias satisfatórias que, efetivamente aumentaram consideravelmente a
performance do algoritmo desenvolvido.
Outra limitação experimental foi o facto de os URLs dos datapoints dos sensores da
temperatura exterior não estarem ativos, impedindo a criação de perfis de conforto para cada
utilizador, tendo ainda atenção as hora do dia, e assim fazer com que o programa conseguisse
reconhecer o perfil desejado pelo ocupante a qualquer dia do ano.
O objetivo inicial para o desenvolvimento desta Dissertação considerava a aplicação do
algoritmo de aprendizagem nos 14 gabinetes dispostos no núcleo. Infelizmente, contando com uma
sala de reunião, e alguns gabinetes desocupados este semestre, e tendo em conta que os datapoints
dos URLs de certos gabinetes não funcionavam na totalidade, só foi possível fazer simulações em
tempo real em 4 gabinetes distintos.
Adicionalmente, o algoritmo foi desenhado para ser aplicado em gabinetes ocupados por um
utilizador apenas, e tendo em conta que em certos gabinetes havia dois ocupantes, o algoritmo só
-1
0
1
2
3
4
22
23
24
25
26
27
15 25 35 45 55 65 75 85
AC
Tem
pe
ratu
ra S
ala
Espaços Temporais (5min)
Temperatura Gabinete T. Conforto AC
63
pôde ser usado por um utilizador de cada vez. Este encarregava-se de gerir o programa por ambas
as partes, muitas vezes perguntando ao seu colega se estava confortável.
Por fim, o facto de as condições climatéricas terem sido muito similares durante a realização
dos ensaios e de todos estes terem sido feitos durante o verão, não permite obter uma validação do
código para todas as condições.
64
8. Conclusões e trabalho futuro
O desenvolvimento de sistemas de controlo inteligente no âmbito da inteligência
computacional estabeleceu a base para melhorar a eficiência dos sistemas de controlo em edifícios.
As novas formas de conceção de sistemas centrados nas pessoas surgiu a partir do
desenvolvimento do campo científico da inteligência computacional. A aplicação de tais sistemas
para edifícios resulta nos chamados ‘’edifícios inteligentes’’. Foi então apresentada nesta tese uma
arquitetura de um sistema de controlo por aprendizagem reforçada para o controlo do conforto num
ambiente de escritórios.
O programa implementado foi desenvolvido com uma interface de simples interpretação por
parte dos utilizadores informando sobre os principais parâmetros do estado do gabinete em tempo
real.
Os ensaios realizados permitiram concluir que, a nível de conforto do ocupante, o sistema
obteve boas performances ao conseguir estabilizar a temperatura do gabinete muito próxima da
temperatura de conforto aprendida, tendo em conta que a velocidade do AC era ligada dependendo
de uma probabilidade, e nunca de uma ordem direta.
Foi também possível concluir que uma primeira aprendizagem da temperatura de conforto
muitas vezes era prematura, pois o ocupante tinha as suas necessidades alteradas ao longo do dia,
quer fosse eventualmente por desejo próprio ou outros fatores, como por exemplo fatores
climatéricos. Foi então necessário estender o cálculo da temperatura de conforto para além do 1º
modo, havendo sempre hipótese que durante o controlo automático a mesma se poderia alterar,
caso surgisse necessidade. Assim foram desencadeados novos ensaios onde se puderam verificar
melhorias em termos da convergência da temperatura da sala à de conforto.
Relativamente ao tipo de algoritmo que constituiu a aprendizagem reforçada, foi identificado
algum descontentamento em certos ocupantes, pois estes algoritmos requerem uma pesquisa de
tentativa e erro. Consequentemente, num estado prematuro de aprendizagem, houve ocupantes que
se sentiram incomodados com a velocidade do AC a alterar-se de forma aleatória e indesejada,
como, por exemplo, o acionamento da velocidade máxima quando a temperatura da sala encontrava-
se razoavelmente satisfatória.
Com base nos resultados obtidos, seria recomendado a elaboração de um estudo de tempo
maior, onde se testasse os programas nas várias estações e variações de clima. Outro
melhoramento recomendado seria a implementação do programa dependendo de outras variáveis
climatéricas, como a temperatura exterior, ou o nível de exposição solar do dia. Isto com o objetivo
de criar perfis de conforto para cada utilizador, tendo ainda atenção as hora do dia, e assim fazer
com que o programa conseguisse reconhecer o perfil desejado pelo ocupante a qualquer dia do ano.
65
Seria assim um bom contributo para o desenvolvimento dos sistemas inteligentes de gestão de
energia.
Por fim, num trabalho futuro, seria uma boa vantagem ter acesso às medições de consumo
de energia dos sistemas usados pelo algoritmo e verificar, se no final de contas, sempre houve uma
redução do consumo do edifício, pois seria a meta final de um sistema inteligente de gestão de
energia.
66
Bibliografia
[1] “Energy Use in the New Millennium, Trends in IEA Countries.” [Online]. Available: http://www.iea.org/publications/freepublications/publication/millennium.pdf. [Accessed: 13-Oct-2014].
[2] “IEA - International Energy Agency - affordable clean energy for all | iea.org.” [Online]. Available: http://www.iea.org/. [Accessed: 20-Feb-2014].
[3] a. I. Dounis and C. Caraiscos, “Advanced control systems engineering for energy and comfort management in a building environment—A review,” Renew. Sustain. Energy Rev., vol. 13, no. 6–7, pp. 1246–1261, Aug. 2009.
[4] “http://blog.iesve.com/index.php/2009/10/28/sustaining-our-future-by-rebuilding-our-past.” .
[5] U. White, “A Chave para Edifícios Sustentáveis e com Melhor Relação Custo-Benefício : Intelligent Energy.”
[6] H. Doukas, K. D. Patlitzianas, K. Iatropoulos, and J. Psarras, “Intelligent building energy management system using rule sets,” Build. Environ., vol. 42, no. 10, pp. 3562–3569, Oct. 2007.
[7] A. A. L. Hadi, A. Thesis, M. Of, S. In, and R. Energy, “ALGORITHM FOR DEMAND RESPONSE TO MAXIMIZE THE,” 2013.
[8] P. H. Louren and M. Disserta, “Gestão inteligente da procura no IST – TagusPark Paulo Henrique Lourenço Marques Engenharia Mecânica Júri,” 2012.
[9] “http://www.ibuilding.gr/definitions.html.” .
[10] “http://www.smartbuildingsinstitute.org.” .
[11] L. Klein, J. Kwak, G. Kavulya, F. Jazizadeh, B. Becerik-Gerber, P. Varakantham, and M. Tambe, “Coordinating occupant behavior for building energy and comfort management using multi-agent systems,” Autom. Constr., vol. 22, pp. 525–536, Mar. 2012.
[12] “AURESIDE - Associação Brasileira de Automação Residencial.” [Online]. Available: http://www.aureside.org.br/artigos/default.asp?file=all.asp. [Accessed: 14-Oct-2014].
[13] “http://www.princetongreen.org/our-goal/our-solutions-portfolio/save-money/building-automation.” .
[14] “A Brief History of Building-Automation Interoperability | Control Engineering.” [Online]. Available: http://www.controleng.com/single-article/a-brief-history-of-building-automation-interoperability/389c3bbb9f7abc7c055fa88a4a3a6419.html. [Accessed: 06-Oct-2014].
[15] “KNX Association - KNX Association [Official website].” [Online]. Available: http://www.knx.org/knx-en/index.php. [Accessed: 06-Oct-2014].
[16] “http://csdomotic.ch/installation-traditionnelle-face-a-une-installation-knx/.” .
[17] “de Dear, Richard; Brager, Gail (1998). ‘Developing an adaptive model of thermal comfort and preference’. ASHRAE Transactions 104 (1): 145–67.”
67
[18] “Huizenga, Charlie; Abbaszadeh, Sahar; Zagreus, Leah; Arens, Ed (2006).‘Air quality and thermal comfort in office buildings: Results of a large indoor environmental quality survey’. Healthy buildings.”
[19] “Myhren, Jonn Are; Holmberg, Sture (2008). ‘Flow patterns and thermal comfort in a room with panel, floor and wall heating’. Energy and Buildings 40(4): 524.”
[20] “SED.” [Online]. Available: http://www.saudepublica.web.pt/05-promocaosaude/054-SOcupacional/SED.htm. [Accessed: 06-Oct-2014].
[21] “Fang, L; Wyon, DP; Clausen, G; Fanger, PO (2004). ‘Impact of indoor air temperature and humidity in an office on perceived air quality, SBS symptoms and performance’. Indoor air. 14 Suppl 7: 74–81.”
[22] “Cabanac, Michel (1971). ‘Physiological role of pleasure’. Science 173(4002): 1103–7.”
[23] “Toftum, J. (2005). ‘Thermal Comfort Indices’. Handbook of Human Factors and Ergonomics Methods. Boca Raton, FL, USA: 63.CRC Press.”
[24] “Szokolay, Steven V. (2010). Introduction to Architectural Science: The Basis of Sustainable Design (2nd ed.). pp. 16–22.”
[25] “Havenith, G (1999). ‘Heat balance when wearing protective clothing’. The Annals of Occupational Hygiene 43 (5): 289–96.”
[26] W. A. Dunn, G. S. Brager, K. A. Brown, D. R. Clark, J. J. Deringer, J. J. Hogeling, D. Int-hout, B. W. Jones, J. N. Knapp, A. G. Kwok, H. Levin, A. K. Melikov, P. Simmonds, J. M. Sipes, E. M. Sterling, and B. P. Sun, “ASHRAE STANDARD Thermal Environmental Conditions for Human Occupancy,” vol. 2004, 2004.
[27] “Wolkoff, Peder; Kjaergaard, Søren K. (2007). ‘The dichotomy of relative humidity on indoor air quality’. Environment International 33 (6): 850–7.”
[28] R. Z. Freire, G. H. C. Oliveira, and N. Mendes, “Predictive controllers for thermal comfort optimization and energy savings,” Energy Build., vol. 40, no. 7, pp. 1353–1365, Jan. 2008.
[29] “Fanger, P Ole (1970). Thermal Comfort: Analysis and applications in environmental engineering. McGraw-Hill.”
[30] “Ye, X. J.; Zhou, Z. P.; Lian, Z. W.; Liu, H. M.; Li, C. Z.; Liu, Y. M. (2006). ‘Field study of a thermal environment and adaptive model in Shanghai’. Indoor Air16 (4): 320–6.”
[31] “http://www.deltaohm.nl/hd323a-pmv-en-ppd-meting-directe-uitlezing-ook-wbgt-sensoren-aan-kabel.” .
[32] J. F. Nicol and M. a. Humphreys, “Adaptive thermal comfort and sustainable thermal standards for buildings,” Energy Build., vol. 34, no. 6, pp. 563–572, Jul. 2002.
[33] “No Titlde Dear, Richard; Brager, Gail (1998). ‘Developing an adaptive model of thermal comfort and preference’. ASHRAE Transactions 104 (1): 145–67.”
[34] “M.R. Sharma, S. Ali, Tropical Summer IndexÐa study of termal comfort in Indian subjects, Building and Environment 21 (1) (1986) 11±24.”
68
[35] “M.A. Humphreys, J.F. Nicol, The effects of measurement and formulation error on thermal comfort indices in the ASHRAE database of field studies, ASHRAE Transactions 206 (2) (2000) 493±502.”
[36] “J.F. Nicol, M.A. Humphreys, Thermal comfort as part of a selfregulating system, Building Research and Practice (Journal of CIB) 6(3) (1973) 191±197.”
[37] “M.A. Humphreys, Field studies of thermal comfort compared and applied, Journal of the Institute of Heating and Ventilating Engineers 44 (1976) 5±27.”
[38] “Szokolay, Steven V. (2010). Introduction to Architectural Science: The Basis of Sustainable Design(2nd ed.). p. 19.”
[39] “Haldi, Frédéric; Robinson, Darren (2008). ‘On the behaviour and adaptation of office occupants’. Building and Environment 43 (12): 2163.”
[40] “Nicol, J Fergus (2001). ‘Characterising Occupant Behaviour in Buildings’. Proceedings of the Seventh International IBPSA Conference. Rio de Janeiro, Brazil. pp. 1073–1078.”
[41] “M.A. Humphreys, J.F. Nicol, The validity of ISO-PMV for predicting comfort votes in every-day termal environments, Energy and Buildings 34 (6) (2002) 667±684.”
[42] “Lenzuni, P.; Freda, D.; Del Gaudio, M. (2009). ‘Classification of Thermal Environments for Comfort Assessment’. Annals of Occupational Hygiene 53 (4): 325–32.”
[43] “Karjalainen, Sami (2007). ‘Gender differences in thermal comfort and use of thermostats in everyday thermal environments’. Building and Environment42 (4): 1994.”
[44] “A.J. Leaman, W.T. Bordass, Productivity in Buildings: the Killer Variables, Workplace Comfort Forum, London, UK, 1997.”
[45] “N.V. Baker, M.A. Standeven, A behavioural approach to thermal comfort assessment in naturally ventilated buildings, in: Proceedings of the CIBSE National Conference, Eastbourne, Chartered Institute of Building Service Engineers, London, 1995, pp. 76±84.”
[46] “http://greensmartcampus.eu/2012/12/the-smart-campus-pilot-in-lisbon-portugal.”
[47] “http://esther.ist.utl.pt.”
[48] Z. Yu and A. Dexter, “Online tuning of a supervisory fuzzy controller for low-energy building system using reinforcement learning,” Control Eng. Pract., vol. 18, no. 5, pp. 532–539, May 2010.
[49] G. G. Yen and T. W. Hickey, “Reinforcement learning algorithms for robotic navigation in dynamic environments.,” ISA Trans., vol. 43, no. 2, pp. 217–30, Apr. 2004.
[50] M. Asadpour and R. Siegwart, “Compact Q-learning optimized for micro-robots with processing and memory constraints,” Rob. Auton. Syst., vol. 48, no. 1, pp. 49–61, Aug. 2004.
[51] S. G. Khan, G. Herrmann, F. L. Lewis, T. Pipe, and C. Melhuish, “Reinforcement learning and optimal adaptive control: An overview and implementation examples,” Annu. Rev. Control, vol. 36, no. 1, pp. 42–59, Apr. 2012.
69
[52] R. S. Sutton and a. G. Barto, “Reinforcement Learning: An Introduction,” IEEE Trans. Neural Networks, vol. 9, no. 5, pp. 1054–1054, Sep. 1998.
[53] “Tutorial: Reinforcement Learning Algorithms for MDPs.” [Online]. Available: http://www.sztaki.hu/~szcsaba/research/AAAI10_Tutorial/. [Accessed: 10-Oct-2014].
70
Anexo I Código implementado para o gabinete 2N-14.28, registo de dados e interface com o
utilizador.
function varargout = Gabinete28(varargin)
% GABINETE28 MATLAB code for Gabinete28.fig
% GABINETE28, by itself, creates a new GABINETE28 or raises the existing
% singleton*.
%
% H = GABINETE28 returns the handle to a new GABINETE28 or the handle to
% the existing singleton*.
%
% GABINETE28('CALLBACK',hObject,eventData,handles,...) calls the local
% function named CALLBACK in GABINETE28.M with the given input arguments.
%
% GABINETE28('Property','Value',...) creates a new GABINETE28 or raises the
% existing singleton*. Starting from the left, property value pairs are
% applied to the GUI before Gabinete28_OpeningFcn gets called. An
% unrecognized property name or invalid value makes property application
% stop. All inputs are passed to Gabinete28_OpeningFcn via varargin.
%
% *See GUI Options on GUIDE's Tools menu. Choose "GUI allows only one
% instance to run (singleton)".
%
% See also: GUIDE, GUIDATA, GUIHANDLES
% Edit the above text to modify the response to help Gabinete28
% Last Modified by GUIDE v2.5 06-Oct-2014 23:13:17
% Begin initialization code - DO NOT EDIT
gui_Singleton = 1;
gui_State = struct('gui_Name', mfilename, ...
'gui_Singleton', gui_Singleton, ...
'gui_OpeningFcn', @Gabinete28_OpeningFcn, ...
'gui_OutputFcn', @Gabinete28_OutputFcn, ...
'gui_LayoutFcn', [] , ...
'gui_Callback', []);
if nargin && ischar(varargin{1})
gui_State.gui_Callback = str2func(varargin{1});
end
if nargout
[varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:});
else
gui_mainfcn(gui_State, varargin{:});
end
% End initialization code - DO NOT EDIT
% --- Executes just before Gabinete28 is made visible.
function Gabinete28_OpeningFcn(hObject, eventdata, handles, varargin)
% This function has no output args, see OutputFcn.
% hObject handle to figure
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% varargin command line arguments to Gabinete28 (see VARARGIN)
% Choose default command line output for Gabinete28
handles.output = hObject;
% Update handles structure
71
guidata(hObject, handles);
% UIWAIT makes Gabinete28 wait for user response (see UIRESUME)
% uiwait(handles.figure1);
global fanstep elapsed_time temperature_history ac_history k l A B R AC_anterior
matriz_T_AC AC probabilidade pausa T_conforto I T_current date_history t
conforto_history
pausa=60;
if ~exist('DataGabinete28.mat')
elapsed_time=clock;
fanstep=0;
k=1;
l=1;
I=0;
t=1;
probabilidade = 0.75;
T_current = 0;
T_conforto=0;
B=zeros(14,4,1000);
B(:,:,:) = 0.25;
AC=0;
A = zeros(14,3,1000);
A(:,:,:) = 1/2;
for q=1:1000
A(:,3,q)=[19 ;20 ;21; 22; 23; 24 ;25; 26; 27; 28; 29; 30; 31; 32];
end
R = zeros(14,2,1000);
AC_anterior = 0;
temperature_history=[];
ac_history=[];
date_history=[];
conforto_history=[];
else
load('DataGabinete28.mat');
end
matriz_T_AC = cumsum(B,2);
set(handles.plot_temp_sala,'XTick',[],'YTick',[])
% --- Outputs from this function are returned to the command line.
function varargout = Gabinete28_OutputFcn(hObject, eventdata, handles)
% varargout cell array for returning output args (see VARARGOUT);
% hObject handle to figure
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% Get default command line output from handles structure
varargout{1} = handles.output;
% --- Executes on button press in luz_button.
function luz_button_Callback(hObject, eventdata, ~)
% hObject handle to luz_button (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% Hint: get(hObject,'Value') returns toggle state of luz_button
Light_status= get(hObject,'Value')
72
Lights_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428lights');
header_l_1428 = http_createHeader('Content-Type','application/json');
result_l_1428 = urlread2(Lights_1428,'GET','',header_l_1428);
if Light_status ==1
tokenRequestl_l_1428='{"values":["true"]}';
control_l_1428 =
urlread2(Lights_1428,'PUT',tokenRequestl_l_1428,header_l_1428);
else
tokenRequestl_l_1428='{"values":["false"]}';
control_l_1428 =
urlread2(Lights_1428,'PUT',tokenRequestl_l_1428,header_l_1428);
end
% --- Executes on button press in AC_button.
function AC_button_Callback(hObject, eventdata, handles)
% hObject handle to AC_button (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% Hint: get(hObject,'Value') returns toggle state of AC_button
global elapsed_time k l A B R AC_anterior ac_history temperature_history fanstep
matriz_T_AC AC m probabilidade pausa T_conforto I T_current date_history t
conforto_history
%Ler temperatura
hvac_curr_temp_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428hvaccurrenttemp');
header_cs_1428 = http_createHeader('Content-Type','application/json');
result_cs_1428 = urlread2(hvac_curr_temp_1428,'GET','',header_cs_1428);
set(handles.temp_sala,'String',result_cs_1428(49:52))
T_current = str2num(result_cs_1428(49:52));
% fan step read
fan_step_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428fanstep');
header_fs_1428 = http_createHeader('Content-Type','application/json');
73
result_fs_1428 = urlread2(fan_step_1428,'GET','',header_fs_1428);
% fan step write
fanstep=round(get(handles.AC_slider,'Value'))
tokenRequestl_fs_1428=['{"values":["' num2str(fanstep) '"]}'];
control_fs_1428 =
urlread2(fan_step_1428,'PUT',tokenRequestl_fs_1428,header_fs_1428);
set(handles.Fanstep,'String',fanstep)
if fanstep <= 9
AC = 0;
elseif fanstep > 9 && fanstep <= 40
AC = 1;
elseif fanstep > 40 && fanstep <= 70
AC = 2;
elseif fanstep > 70 && fanstep <= 100
AC = 3;
end
set(handles.ACstep,'String',AC)
elapsed_time_aux=clock;
%------------------------------------------- Aprendizagem 2º
if I>0
if ( A(I,1,k)>=probabilidade )
set(handles.Fanstep,'String',fanstep)
elapsed_time=[elapsed_time;elapsed_time_aux];
j = round(T_current) - 19 + 1;
if fanstep <= 9
AC = 0;
elseif fanstep > 9 && fanstep <= 40
AC = 1;
elseif fanstep > 40 && fanstep <= 70
AC = 2;
elseif fanstep > 70 && fanstep <= 100
AC = 3;
end
set(handles.ACstep,'String',AC)
PMV = T_current - T_conforto;
if abs(round(PMV)) == 3
recompensa = 0;
74
elseif abs(round(PMV)) == 2
recompensa = 1;
elseif abs(round(PMV)) == 1
recompensa = 2;
elseif abs(round(PMV)) == 0
recompensa = 3;
end
[a b] = ismember(1,B(j,:,1));
if a == 1
B(j,AC+1,l) = B(j,AC+1,l) + recompensa/25;
B(j,b,l) = B(j,b,l) - recompensa/25;
else
B(j,AC+1,l) = B(j,AC+1,l) + recompensa/25;
B(j,1:end ~= AC+1,l) = B(j,1:end ~= AC+1,l) - recompensa/75;
end
%certifica que as probabilidades nunca vao abaixo de zero
for m = 1:4
if B(j,m,l) <= 0
B(j,AC+1,l) = B(j,AC+1,l) - abs(B(j,m,l));
B(j,m,l) = 0;
end
if B(j,m,l) > 1
B(j,AC+1,l) = B(j,AC+1,l) - abs((1-B(j,m,l)));
%B(j,m,l) = 0;
end
end
if sum(B(j,:,l),2) ~= 1
if sum(B(j,:,l),2) < 1
[c d]=min(nonzeros(B(j,:,l)));
B(j,d,l)=B(j,d,l) + (1-sum(B(j,:,l),2));
elseif sum(B(j,:,l),2) > 1
[c d]=min(nonzeros(B(j,:,l)));
B(j,d,l)=B(j,d,l) - abs(1-sum(B(j,:,l),2));
end
end
for n= l+1 : 1000
B(:,:,n) = B(:,:,l);
end
if t/3==round(t/3) && t > 1 && t <= 3
if fanstep <= 40
T_conforto=T_conforto + 1;
else
T_conforto=T_conforto - 1;
end
end
B(:,:,l)
set(handles.tableB,'Data',B(:,:,l))
l=l+1;
t=t+1;
75
conforto_history=[conforto_history;T_conforto];
temperature_history=[temperature_history;T_current];
ac_history=[ac_history;AC];
date_history=[date_history;date];
[a ~]=size(temperature_history);
[haxes,hline1,hline2] = plotyy(1:a,temperature_history,1:a,ac_history);
ylabel(haxes(1),'Temperatura') % label left y-axis
ylabel(haxes(2),'AC') % label right y-axis
xlabel(haxes(2),'Iteracoes') % label x-axix
pause(pausa)
save DataGabinete28 fanstep elapsed_time temperature_history ac_history
k l A B R...
AC_anterior AC probabilidade I AC_anterior T_conforto T_current date_history t
conforto_history
Ligar_Controlo_AC_Callback(hObject, eventdata, handles);
end
end
% --- Executes on slider movement.
function AC_slider_Callback(hObject, eventdata, handles)
% hObject handle to AC_slider (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
% Hints: get(hObject,'Value') returns position of slider
% get(hObject,'Min') and get(hObject,'Max') to determine range of slider
% --- Executes during object creation, after setting all properties.
function AC_slider_CreateFcn(hObject, eventdata, handles)
% hObject handle to AC_slider (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles empty - handles not created until after all CreateFcns called
% Hint: slider controls usually have a light gray background.
if isequal(get(hObject,'BackgroundColor'),
get(0,'defaultUicontrolBackgroundColor'))
set(hObject,'BackgroundColor',[.9 .9 .9]);
end
% --- Executes on button press in Ligar_Controlo_AC.
function Ligar_Controlo_AC_Callback(hObject, eventdata, handles)
% hObject handle to Ligar_Controlo_AC (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
global elapsed_time k l A B R AC_anterior ac_history temperature_history fanstep
matriz_T_AC AC m probabilidade pausa T_conforto I T_current date_history t
conforto_history
elapsed_time_aux=clock;
Ligar_Controlo_PC_status= get(hObject,'Value')
if Ligar_Controlo_PC_status ==1
76
%Ler temperatura
hvac_curr_temp_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428hvaccurrenttemp');
header_cs_1428 = http_createHeader('Content-Type','application/json');
result_cs_1428 = urlread2(hvac_curr_temp_1428,'GET','',header_cs_1428);
set(handles.temp_sala,'String',result_cs_1428(49:52))
T_current = str2num(result_cs_1428(49:52));
%---------------------------------- Aprendizagem 1º
while(A(:,1,k)<probabilidade)
set(handles.Aprendizagem,'String','Temperatura de Conforto')
elapsed_time=[elapsed_time;elapsed_time_aux];
i = (round(T_current) - 19) + 1;
if fanstep <= 9
AC = 0;
elseif fanstep > 9 && fanstep <= 40
AC = 1;
elseif fanstep > 40 && fanstep <= 70
AC = 2;
elseif fanstep > 70 && fanstep <= 100
AC = 3;
end
set(handles.ACstep,'String',AC)
set(handles.Fanstep,'String',fanstep)
delta_AC = AC - AC_anterior;
AC_anterior = AC;
if delta_AC == 0
recompensa = 3 - abs(delta_AC);
else
recompensa = abs(delta_AC);
end
if delta_AC == 0
AC_aux = 1;
else
AC_aux = 2;
end
R(i,AC_aux,k) = R(i,AC_aux,k) + recompensa;
A(i,AC_aux,k) = A(i,AC_aux,k) + recompensa/100;
A(i,1:end-1 ~= AC_aux,k) = A(i,1:end-1 ~= AC_aux,k) - recompensa/100;
for j = 1:2
if A(i,j,k) <= 0
A(i,AC_aux,k) = A(i,AC_aux,k) - abs(A(i,j,k));
A(i,j,k) = 0;
end
end
77
iteracao = k
if k<1000
A(:,:,k+1) = A(:,:,k);
end
A(:,:,k)
set(handles.tableA,'Data',A(:,:,k))
k=k+1;
pause(pausa)
temperature_history=[temperature_history;T_current];
ac_history=[ac_history;AC];
date_history=[date_history;date];
[a ~]=size(temperature_history);
[haxes,hline1,hline2] = plotyy(1:a,temperature_history,1:a,ac_history);
ylabel(haxes(1),'Temperatura') % label left y-axis
ylabel(haxes(2),'AC') % label right y-axis
xlabel(haxes(2),'Iteracoes') % label x-axix
save DataGabinete28 fanstep elapsed_time temperature_history ac_history
k l A B R ...
AC_anterior AC probabilidade I AC_anterior T_conforto T_current date_history t
[Y,I] = max(A(:,1,k));
T_conforto = I - 1 + 19;
Ligar_Controlo_AC_Callback(hObject, eventdata, handles);
end
%------------------------------------------- Aprendizagem 2º
set(handles.Aprendizagem,'String','Controlo Automatico')
set(handles.temp_conforto,'String',T_conforto)
elapsed_time=[elapsed_time;elapsed_time_aux];
j = round(T_current) - 19 + 1;
%liga AC aleatoriamente
probAC = rand(1);
matriz_T_AC = cumsum(B,2);
AC_aux = find(probAC<matriz_T_AC(j,:,l));
AC = min(AC_aux)-1;
%lê velocidade AC
fan_step_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428fanstep');
header_fs_1428 = http_createHeader('Content-Type','application/json');
result_fs_1428 = urlread2(fan_step_1428,'GET','',header_fs_1428);
if AC == 0
78
tokenRequestl_fs_1428='{"values":["0"]}';
elseif AC == 1
tokenRequestl_fs_1428='{"values":["20"]}';
elseif AC == 2
tokenRequestl_fs_1428='{"values":["50"]}';
elseif AC == 3
tokenRequestl_fs_1428='{"values":["100"]}';
end
control_fs_1428 =
urlread2(fan_step_1428,'PUT',tokenRequestl_fs_1428,header_fs_1428);
set(handles.ACstep,'String',AC)
fan_step_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428fanstep');
header_fs_1428 = http_createHeader('Content-Type','application/json');
result_fs_1428 = urlread2(fan_step_1428,'GET','',header_fs_1428);
fanstep = str2num(result_fs_1428(49:51));
set(handles.Fanstep,'String',fanstep)
T_current
AC
pause(pausa);
hvac_curr_temp_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428hvaccurrenttemp');
header_cs_1428 = http_createHeader('Content-Type','application/json');
result_cs_1428 = urlread2(hvac_curr_temp_1428,'GET','',header_cs_1428);
T_current_next = str2num(result_cs_1428(49:52));
PMV = T_current_next - T_conforto;
if abs(round(PMV)) >= 3
recompensa = 0;
elseif round(PMV) >= 0
recompensa = - PMV + 1;
else
recompensa = PMV + 1;
end
[a b] = ismember(1,B(j,:,1));
if a == 1
B(j,AC+1,l) = B(j,AC+1,l) + recompensa/30;
B(j,b,l) = B(j,b,l) - recompensa/30;
else
B(j,AC+1,l) = B(j,AC+1,l) + recompensa/30;
B(j,1:end ~= AC+1,l) = B(j,1:end ~= AC+1,l) - recompensa/90;
end
79
%certifica que as probabilidades nunca vao abaixo de zero
for m = 1:4
if B(j,m,l) <= 0
B(j,AC+1,l) = B(j,AC+1,l) - abs(B(j,m,l));
B(j,m,l) = 0;
end
if B(j,m,l) > 1
B(j,AC+1,l) = B(j,AC+1,l) - abs((1-B(j,m,l)));
%B(j,m,l) = 0;
end
end
if sum(B(j,:,l),2) < 1
[c d]=min(nonzeros(B(j,:,l)));
B(j,d,l)=B(j,d,l) + (1-sum(B(j,:,l),2));
elseif sum(B(j,:,l),2) > 1
[c d]=min(nonzeros(B(j,:,l)));
B(j,d,l)=B(j,d,l) - abs(1-sum(B(j,:,l),2));
end
matriz_T_AC = cumsum(B(:,:,l),2);
for n= l+1 : 1000
B(:,:,n) = B(:,:,l);
end
B(:,:,l)
set(handles.tableB,'Data',B(:,:,l))
l=l+1;
conforto_history=[conforto_history;T_conforto];
temperature_history=[temperature_history;T_current];
ac_history=[ac_history;AC];
date_history=[date_history;date];
[a ~]=size(temperature_history);
[haxes,hline1,hline2] = plotyy(1:a,temperature_history,1:a,ac_history);
ylabel(haxes(1),'Temperatura') % label left y-axis
ylabel(haxes(2),'AC') % label right y-axis
xlabel(haxes(2),'Iteracoes') % label x-axix
save DataGabinete28 fanstep elapsed_time temperature_history ac_history k l
A B R...
AC_anterior AC probabilidade I AC_anterior T_conforto T_current date_history t
conforto_history
Ligar_Controlo_AC_Callback(hObject, eventdata, handles);
else
set(handles.Aprendizagem,'String','------')
% fan step read
80
fan_step_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428fanstep');
header_fs_1428 = http_createHeader('Content-Type','application/json');
result_fs_1428 = urlread2(fan_step_1428,'GET','',header_fs_1428);
% fan step write
tokenRequestl_fs_1428=['{"values":["0"]}'];
control_fs_1428 =
urlread2(fan_step_1428,'PUT',tokenRequestl_fs_1428,header_fs_1428);
% hvac mode read
hvac_mode_1428=('http://sb-
prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428hvacmode');
header_hvacm_1428 = http_createHeader('Content-Type','application/json');
result_hvacm_1428 = urlread2(hvac_mode_1428,'GET','',header_hvacm_1428);
% hvac mode write
tokenRequestl_hvacm_1428='{"values":["false"]}';
control_hvacm_1428 =
urlread2(hvac_mode_1428,'PUT',tokenRequestl_hvacm_1428,header_hvacm_1428);
end
% --- Executes on button press in SairApp.
function SairApp_Callback(hObject, eventdata, handles)
% hObject handle to SairApp (see GCBO)
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA)
if get(hObject,'Value')
close all
end