Resumo: Data Science disponibiliza recursos que tornam possível otimizar processos e ajudar os utilizadores em tomada de decisoes mais rápidas e mais sustentadas, permitindo que uma organizaçâo tenha uma estratégia de negocio mais competitiva em relaçâo aos seus concorrentes. Para aplicar os conceitos de Data Science é preciso validar as ferramentas que existem no mercado e encontrar a que melhor se adapta as necessidades de uma organizaçâo. Por essa razâo, foi aplicada a metodologia OSSpal as ferramentas open source Dataiku, KNIME, Orange e RapidMiner com o objetivo de encontrar a ferramenta mais robusta e completa. Neste processo de avaliaçâo identificou-se a ferramenta KNIME como a opçâo mais robusta e completa dentro das ferramentas open source avaliadas neste trabalho.
Palavras-chave: Data Science; Ferramentas Open Source; Metodologia OSSpal.
Abstract: Data Science provides resources capable of optimizing processes and helping users make faster and more supported decisions, enabling a company to have a more competitive business strategy over its competitors. To apply the concepts of Data Science it is necessary to validate the tools that exist in the market and find one that best fits the needs of the company. For this reason, the OSSpal methodology was applied to the open source tools Dataiku, KNIME, Orange and RapidMiner to find the most robust and complete tool. In this evaluation process, the KNIME tool was identified as the most robust and complete option within the open source tools evaluated in this work.
Keywords: Data Science; Open source tools; OSSpal methodology
1.Introduçao
Nos dias de hoje, o mundo empresarial está cada vez mais competitivo e, consequentemente, concerne as organizaçoes inovar e manterem-se prontas para as alteraçoes no mercado de modo a ajustarem-se e permanecerem competitivas e com sucesso, independentemente da sua área de negocio.
Atualmente, o desafio é conseguir extrair e prever informaçâo relevante em grandes quantidades de dados para lhes atribuir um significado, criando conhecimento e auxiliando em tomadas de decisâo assertivas, fazendo, assim, com que as organizaçoes possam alcançar os seus objetivos.
A informaçâo recolhida nas organizaçoes assume-se, cada vez mais, como um ativo de elevada importancia e o tratamento dos dados e transformaçâo em informaçâo e conhecimento traz uma vantagem competitiva adicional (Leite et al., 2018).
O conceito de Data Science (DS) foi originalmente proposto nas comunidades de estatística e matemática, num momento em que se referia essencialmente a análise de dados. Hoje, a arte de Data Science vai além de áreas específicas como Data Mining e Machine Learning, existindo o argumento de que Data Science é a próxima geraçâo de estatísticas. Data Science está a tornar-se um conceito muito importante, que carrega a visao e as responsabilidades de um campo científico independente, sistemático e interdisciplinar (Cao, 2017b).
A implementaçâo de ferramentas de Data Science nas organizaçoes pode, de facto, trazer um grande retorno do investimento e melhorias operacionais, mas também custos muito elevados e é aqui que as soluçoes open source tem ganho expressâo, de forma geral, sendo, atualmente, uma alternativa viável as soluçoes comerciais.
Podem identificar-se as seguintes vantagens da utilizaçao de software open source (Tereso & Bernardino, 2011): 1) Baixo Custo: para além do software ser gratuito, os equipamentos de hardware necessários nâo sâo tâo exigentes em termos de capacidade de processamento, quando comparados com os requisitos de hardware exigidos pelo software comercial, permitindo desta forma, reduzir o valor despendido com os próprios dispositivos; 2) Acesso ao código fonte, permitindo o seu estudo, alteraçâo e implementaçâo de novos módulos de funcionalidades; 3) Suporte da comunidade: o conceito de open source permite a troca de informaçâo e esclarecimento de dúvidas perante a comunidade de desenvolvimento. Normalmente existem fóruns de discussâo associados a cada projeto; 4) O software pode ser partilhado e utilizado para fins diversos; 5) Possibilidade de experimentar o software, sem que isso implique qualquer custo, o que contribui para a seleçâo do software que melhor se enquadre na real necessidade da organizaçâo.
O futuro de Data Science gira em torno da capacidade de fazer previsoes e descobrir padroes em dados: Data Science está no centro desta revoluçâo. Data Science combina várias áreas para extrair conhecimento e alavancar as previsoes dos dados. Apesar de ter vindo a aumentar, gradualmente, a necessidade deste tipo de ferramentas nas organizaçoes, sejam elas de pequena, média ou grande dimensâo, muitas, em especial as PMEs (Pequenas e Médias Empresas) nao conseguem financiar e implementar ferramentas de Data Science dispendiosas. As ferramentas open source podem fornecer a soluçao para este problema (Wimmer & Powell, 2016).
O século XXI iniciou a era de Big Data, em que os dados transportam conhecimentos, insights e potencial relevante, tornando-se um elemento de importancia e relevancia fundamental nas organizaçoes (Cao, 2017a). O conceito de Big Data foi fortemente promovido e tornou-se numa grande força de inovaçao entre governos e organizaçoes. O paradigma é considerado como um esforço para compreender e obter informaçoes a partir de dados, fornecendo insights e informaçoes sobre enormes conjuntos de dados (Neves & Bernardino, 2015).
Neste contexto, o intuito principal para a realizaçao deste trabalho foi demonstrar a importancia e fornecer uma visão geral do tema de Data Science na atualidade e as ferramentas necessárias para atender as necessidades das organizaçoes. Também se pretende fornecer informaçao sobre as capacidades e potencialidades das ferramentas open source de data science, estabelecendo comparaçao entre as funcionalidades das diversas ferramentas.
Para avaliar as ferramentas descritas neste trabalho foi usada a metodologia OSSpal, metodologia que surgiu da evoluçao de outras mais antigas como a OpenBRR e que teve uma revisão no ano de 2017 (Wasserman et al., 2017). Tem como principal objetivo auxiliar as organizaçoes a escolher ferramentas open source de alta qualidade capazes de satisfazer as suas necessidades. Esta metodologia é composta por 4 fases e, no final, atribui uma nota de 1 a 5 as ferramentas avaliadas.
O resto deste artigo está estruturado da seguinte forma. Na secçao 2 sao descritos os trabalhos relacionados. Na secçao 3 sao analisadas as ferramentas open source de Data Science e a secçao 4 apresenta a metodologia OSSPal. Na secçao 5 é efetuada a avaliaçâo das ferramentas usando a metodologia OSSpal. Por fim, a secçao 6 apresenta as conclusoes e trabalho futuro
2.Trabalhos Relacionados
Wimmer & Powell (2016) realizaram um estudo onde compararam várias ferramentas open source de Data Science, nomeadamente, Orange, Tanagra, RapidMiner, KNIME, R e Weka avaliando-as pela capacidade de suportarem as técnicas mais comuns de Data Science (K-means Clustering, Association Rule Mining, Linear Regression, Logistic Regression, Naive Bayesian Classifiers, Decision Tree, Time Series Analytics, Big Data Processing e Visual WorkFlows). Este estudo concluiu que a ferramenta Weka oferece um maior suporte nas tarefas de Data Science avaliadas, no entanto, cada ferramenta tem características e pontos fortes únicos. Segundo o estudo desses autores, em segundo lugar está posicionada a linguagem R que requer aptidoes técnicas mais aprofundadas para executar tarefas básicas. Ferramentas como RapidMiner, KNIME, Orange e Tanagra fornecem abordagens mais visuais, no entanto, há um custo associado: Tanagra foi desenvolvida para o ensino e investigaçâo, o que pode dificultar a sua utilizaçâo a utilizadores pouco experientes, RapidMiner tem uma instalaçao simples, mas muitas funcionalidades nao estao disponíveis na versao open source. Orange através da abordagem visual introduz uma forma simplificada para criar tarefas de Data Science.
Aggarwal (2015) realizou uma análise comparativa das ferramentas open source de Data Science Weka, KNIME, RapidMiner e Orange identificando, para cada uma, vantagens, limitaçoes, principais características e especificaçoes técnicas. Concluíram que, das 4 ferramentas estudadas, KNIME é a ferramenta que pode ser sugerida para utilizadores pouco experientes pois tem muitas funcionalidades incorporadas e outras adicionais que podem ser obtidas a partir de bibliotecas de terceiros. Com base no estudo, Weka é considerada muito próxima da KNIME, devido a várias características incorporadas que nao requerem qualquer conhecimento de linguagens de programaçao, enquanto o RapidMiner e o Orange sao consideradas adequadas para utilizadores mais experientes, devido as competencias de programaçao adicionais que sao necessárias e ao apoio de visualizaçao inadequado que é fornecido. Chega-se, assim, com este estudo a conclusao que nao existe uma ferramenta que possa ser considerada a melhor uma vez que, cada uma das ferramentas tem os seus pontos fortes e pontos fracos. Oferecem boas interfaces gráficas, que proporcionam usabilidade e interatividade, oferecem flexibilidade através da programaçao visual dentro do GUI (Graphical User Interface) ou através da utilizaçao de linguagens de script, porém, as funcionalidades estao dispersas por várias ferramentas e/ou versao paga ou open source.
Hussien et al. (2016) efetuaram um estudo de caso usando quatro datasets (Iris Plant, Breast Cancer Wisconsin, Vehicle, Diabetes) em tres ferramentas Weka, KNIME e SPM (Statistical Parametric Mapping) com o objetivo de comparar o resultado de vários algoritmos de Machine Learning usando cada uma das ferramentas. Conclui-se, neste estudo, que nao há uma ferramenta melhor em comparaçao com as outras e que o importante é usar a ferramenta que mais se adequa para a pesquisa que se pretende efetuar, utilizando, em alguns casos, várias ferramentas em conjunto. No estudo que realizaram, KNIME é apontado como uma ferramenta muito completa em termos de visualizaçao gráfica de resultados para utilizadores mais focados em tarefas de Machine Learning CART (Classification And Regression Trees), MARS (Multivariate Adaptive Regression Splines), Tree Net e Random Forest) sendo que, para datasets extensos, a ferramenta SPM é a mais indicada. Weka é recomendada para utilizadores que necessitem de várias técnicas de Machine Learning e que nao necessitem ou nao privilegiem a visualizaçao gráfica. O KNIME e Weka podem ser usados em conjunto para tentar obter "o melhor de dois mundos", instalando a extensao Weka no KNIME.
Almeida & Bernardino (2016) realizaram um estudo usando as ferramentas open source de data mining KEEL (Knowledge Extraction based on Evolutionary Learning), KNIME, Orange, RapidMiner, R project, Tanagra e Weka avaliando-as em 7 características, linguagens de programaçao utilizadas, sistemas operativos suportados, interface de utilizador, tipo de dados suportados, funcionalidades de social media, suporte para o uso de serviços em cloud e suporte para Big Data. Os autores concluíram que as ferramentas open source de data mining já atingiram um nivel de robustez que as torna aptas para serem usadas em várias áreas, como negocios, industria, investigaçao ou educaçao. As ferramentas RapidMiner, KNIME, R Project e Weka sao viáveis para uso em ambientes de PME (Pequenas Médias Empresas) enquanto as ferramentas KEEL, Orange e Tanagra sao mais direcionadas para o uso académico e de investigaçao.
Tereso & Bernardino (2011) efetuaram um estudo avaliando as ferramentas open source de Business Intelligence SpagoBI, Openl, Pentaho, JasperSoft, Palo e Vanilla comparando-as relativamente as seguintes funcionalidade, Relatórios, Gráficos, Dashboards, OLAP (On-line Analytical Processing), ETL (Extract, Transform, Load), Data Mining, KPIs (Key Performace Indicators) e Exportaçao de dados. Com este estudo, os autores chegaram a conclusao que a ferramenta SpagoBI é a mais completa e que fornece mais funcionalidades, a ferramenta Pentaho é consistente e bastante completa a par da SpagoBI, único aspeto que difere entre elas é a ausencia de suporte de localizaçao GEO/GIS na ferramenta Pentaho. A ferramenta JasperSoft é uma ferramenta poderosa, carece apenas de processos de Data Mining e KPIs. A ferramenta Palo nao suporta processos de Data Mining, KPIs e funcionalidades de localizaçao GEO/GIS. A ferramenta Vanilla é identica ao pacote de soluçoes Pentaho, sendo semelhantes as funcionalidades disponibilizadas.
Petrinja et al. (2010) desenvolveram um estudo que comparava a qualidade e usabilidade de tres metodologias de avaliaçao de software open source OpenBRR (Open Business Readiness Rating), QSOS(Qualification and Selection of Open source software) e OMM (QualiPSo Open source Maturity Model). Os autores identificaram os pontos positivos e negativos de cada uma e concluíram que as tres metodologias oferecem avaliaçoes idénticas. Concluíram também que nas tres metodologias os parámetros de avaliaçao nao tem uma formulaçao clara o que pode dificultar a avaliaçao por parte dos utilizadores que pretendam avaliar as ferramentas.
Pereira et al. (2019) efetuaram uma análise comparativa de tres ferramentas open source de Data Science (KNIME, RapidMiner e Weka) usando a metodologia de avaliaçao OSSpal. Os autores deste trabalho concluíram que o RapidMiner é a ferramenta que obteve a melhor pontuaçao final (de 4,606), o que justifica o número de utilizadores que esta ferramenta possui. O KNIME ocupa o segundo lugar com uma pontuaçao elevada (de 4,07, escala de 1 a 5) perto do RapidMiner e isso pode justificar o aumento de utilizadores em comparaçao com outras ferramentas ao longo dos últimos anos e por último a ferramenta Weka aparece com a pior pontuaçao 2,48 que justifica a diminuiçao do número de utilizadores.
Leite et al. (2018) realizaram um estudo comparativo de duas ferramentas open source de Business Intelligence (Knowage e Pentaho) usando a metodologia de avaliaçao OSSpal. Concluiu-se neste estudo que a ferramenta Pentaho apresenta a pontuaçao mais alta (4,35, escala de 1 a 5) na metodologia OSSpal do que a ferramenta Knowage (com 3,31). Tanto a Knowage como a Pentaho revelam-se boas opçoes atualmente, sendo que a vantagem da Pentaho está numa maior comunidade e suporte e melhor documentaçao.
Ferreira et al. (2017) efetuaram um estudo em que compararam quatro ferramentas open source de Business Intelligence (BIRT, Jaspersoft, Pentaho e SpagoBI) através da metodologia de avaliaçao OSSpal. Segundo a metodologia a ferramenta Pentaho foi a ferramenta que obteve a pontuaçao mais alta (com 3,47, numa escala de 1 a 5), seguindo-se as ferramentas SpagoBI e Jaspersoft ocupando o segundo e terceiro lugar respetivamente com uma diferença mínima (0,02 pontos). Estas ferramentas sao muito completas e provaram ter muito potencial como ferramentas open source de Business Intelligence. O BIRT apresentou a pontuaçao mais baixa com 2,07 pontos, uma vez que é uma ferramenta mais focada em relatórios e não possui grande parte das funcionalidades definidas na metodologia.
O que distingue este trabalho dos trabalhos mencionados acima é o conjunto de ferramentas estudadas e avaliadas com a metodologia OSSpal e os próprios critérios de avaliaçao usados nesta metodologia sao diferentes dos analisados nos trabalhos relacionados.
Apesar de algumas ferramentas abordadas nos estudos mencionados anteriormente serem as mesmas que iremos abordar e avaliar neste trabalho, os critérios de avaliaçao usados na metodologia OSSpal nao coincidem com os que foram utilizados na realizaçao deste trabalho. Foi efetuada também a instalaçao das quatro ferramentas avaliadas pela metodologia permitindo assim uma melhor perceçao e avaliaçao.
3.Ferramentas Open source de Data Science
Atualmente, o mercado oferece uma grande variedade de opçoes de ferramentas de Data Science (DS), comerciais ou open source, todas com o objetivo comum de organizar os dados de forma clara, transformando-os em informaçao que possa ajudar nas tomadas de decisoes das organizaçoes.
Para a realizaçao deste trabalho foram apenas selecionadas ferramentas open source uma vez que sao uma boa opçao para as organizaçoes que queiram integrar sistemas de Data Science visto que nao tem custos de aquisiçao, o que permite as organizaçoes experimentar as ferramentas e encontrar a que melhor se enquadra nas suas necessidades. O suporte das comunidades permite a troca de informaçao que agiliza o processo de implementaçao nas organizaçoes e o desenvolvimento das tarefas de Data Science.
Nesta secçao serao abordadas as principais características e funcionalidades de cada umas das ferramentas de Data Science selecionadas: Dataiku, KNIME, Orange e RapidMiner. Estas foram selecionadas através da procura em websites e artigos de opiniao que agrupavam ferramentas Data Science que se podiam incluir neste trabalho identificando as mais bem cotadas e comuns e que continuam ativas e em desenvolvimento.
3.1. Dataiku
A história da ferramenta Dataiku (www.dataiku.com/) começa em 2013. Os fundadores da Dataiku partiram do principio de que, para ter sucesso no ecossistema em rápida evoluçao do mundo, as organizaçoes, nao importa qual seja seu setor ou tamanho, devem usar os dados para inovar continuamente. O principal fundador e a soluçao abrangente da Dataiku impressionaram as organizaçoes em todo o mundo, resultando num rápido crescimento desde sua fundaçao. Segundo o website, muitas organizaçoes usam Dataiku para sustentar suas operaçoes de negócios essenciais e garantir que permaneçam relevantes no mundo em mudança, incluindo modelos de deteçao de fraude, prevençao de rotatividade de clientes e manutençao preditiva. A interface da ferramenta é acedida através de um browser, como mostra a Figura 1.
A ferramenta Dataiku permite o uso de vários tipos de dados, como ficheiros CSV (Comma Separated Values), base de dados SQL (Structured Query Language) e NoSQL.
Esta ferramenta disponibiliza vários métodos de pré-processamento de dados, algoritmos de predictive Machine Learning (supervised learning), suporta métodos escritos em R e Python, bem como, visualizaçao dos dados de saída através de diversos gráficos, tabelas e relatórios.
3.2.KNIME
O KNIME (Konstanz Information Miner) (www.knime.com/) é uma plataforma open source de análise de dados, construçao de relatórios e integraçao de dados. O KNIME integra vários componentes para machine learning, data mining, deep learning, text mining, predictive analytics, image processing, web analytics, network analysis e social media analysis.
Faz uso de uma interface gráfica e de JDBC (Java Database Conectivity) que permite a construçao de nós, combinando diferentes fontes de dados, incluindo pré-processamento para modelagem, análise e visualizaçao de dados sem necessidade de programaçao ou muito residual.
Inicialmente, era utilizado em pesquisas farmacéuticas, ciencias biológicas e análise de dados de clientes de CRM (Customer Relationship Management). Atualmente é usado também nos bancos, editoras, fabricantes de automóveis, empresas de telecomunicaçoes, empresas de consultoria, etc.
O KNIME permite aos utilizadores criar visualmente fluxos de dados, executar uma an âlise e depots inspecionar os resultados e modelos, usando ferra mentas e visualizaçoes interativas, como sa poOe observes ns Figara 2 s
3.3.Orange
Orange (www.orangedatamining.com/) é uma ferramenta open-source para data mining, visualization environment, analytics and scripting environment. Suporta ferramentas que sao usadas como blocos de construçao para criar fluxos de trabalho dentro do ambiente Orange representado na Figura 3.
Orange suporta vários tipos de ferramentas como:
* Ferramentas de Dados: permitem a manipulaçao de dados, como discretizaçao, concatenaçao e fusão;
* Ferramentas de visualizaçao: realizam vários tipos de gráficos e projeçao linear;
* Ferramentas de classificaçao: estao no centro da funcionalidade Orange e podem ser usadas para múltiplas árvores de decisão, como C4.5 e CART, KNN (K-Nearest-Neighbor) e SVM (Support Vector Machines);
* Ferramentas de regressão: tem regressão logística e linear, bem como árvores de regressão;
* Ferramentas de avaliagão: contem avaliaçoes padrão, como curvas ROC e matrizes de confusão;
* Ferramentas de associados: tem recursos de mineragão de ARM (Association Rule Mining), recursos não supervisionados como clustering k-means, MDS (MultiDimensional Scaling) bem como uma série de outras capacidades.
3.4.RapidMiner
O RapidMiner (www.rapidminer.com/) é uma ferramenta de Data Science para processamento de dados que fornece um ambiente integrado para preparaçao de dados, machine learning, deep learning, text mining e predictive analytics. Usa o paradigma de cliente/servidor em que o servidor é fornecido como SaaS (Software as a Service) ou em cloud.
Esta ferramenta é usada, maioritariamente, para aplicaçoes comerciais, bem como para pesquisa, educaçao e desenvolvimento de aplicaçoes e suporta todas as etapas do processo de Machine Learning.
O RapidMiner é open source na sua versão mais básica chamada RapidMiner Studio Free Edition, que é limitada a 1 processador lógico e 10.000 linhas de dados, a interface esta representada na Figura 4.
A Figura 4 é constituida pelos seguintes blocos:
1. Operators: Operadores usados na criaçao dos processos.
2. Repository: Armazenamento no RapidMiner para dados e processos.
3. Process panel: Área de trabalho para a criaçao de processos.
4. Views: Área de trabalho para aceder a funcionalidades específicas.
5. Ports: input/output para operadores e processos.
6. Parameters: Parámetros de configuraçao do operator selecionado.
7. Help: Descriçao do operator selecionado.
4.Metodologia OSSpal
A metodologia OSSpal foi a escolhida para realizar o presente trabalho. Esta metodologia surgiu da evoluçao de metodologias mais antigas como a OpenBRR (Open Business Readiness Rating) e que teve uma revisão no ano de 2017 (Wasserman et al., 2017). A metodologia OSSpal tem como objetivo auxiliar as organizaçoes a escolher ferramentas open source de alta qualidade para satisfazer as suas necessidades. É, assim, uma forma de avaliaçao de ferramentas/'software open source que as classifica de modo a atribuir uma pontuaçao que ajude as organizaçoes a encontrar software de alta qualidade.
A metodologia OSSpal é composta por 4 fases:
Fase 1: Identificaçao das características a serem avaliadas.
Fase 2: Atribuir pesos as categorias de avaliaçao definidas na Fase 1.
a. Definir uma percentagem para cada categoria. A soma deve ser 100%.
b. Definir os pesos de acordo com a importância das várias categorias.
Fase 3: Atribuir uma ponderaçao a cada categoria. Nivel 1 (inaceitável) a 5 (excelente).
Fase 4: Cálculo da pontuaçao final da avaliaçao da ferramenta.
Para a avaliaçao das ferramentas open source, seguiram-se os critérios definimos pelo estudo realizado por (Wasserman et al., 2017) que sao agrupados em 7 categorias distintivas:
Funcionalidades: O quao bem o software vai satisfazer os requisitos médios do utilizador?
Características Operacionais do Software: O software é seguro? O software tem um bom desempenho? O software escala bem num ambiente grande? A interface do software é intuitiva? O software é de fácil uso para os utilizadores? O software é fácil de instalar, configurar implementar e manter?
Documentaçao: O software fornece tutoriais e documentaçao de referencia.
Suporte e serviço: O software é bem suportado? Existe suporte comercial e por parte de comunidades de especialistas? A organizaçao do software disponibiliza serviços de formaçao e consultoria?
Atributos Tecnológicos do Software: O software baseia-se numa arquitetura sólida? O software é modular, portátil, flexível, extensivei e fácil de integrar? O design, código e testes do software sao de alta qualidade? O software é completo e livre de erros?
Comunidade e adoçao: O software é adotado pela comunidade e pela industria? O software tem associada uma comunidade ativa de utilizadores?
Processo de desenvolvimento: Qual é o nivel de profissionalismo do processo de desenvolvimento e da organizaçao do projeto como um todo?
A categoria "Funcionalidades" é calculada de maneira diferente do resto das categorias. Para avaliar esta categoria o primeiro passo é definir as categorias, dando um peso de 1 a 3 (menos importante para muito importante), se a ferramenta nao suportar a funcionalidade recebe a pontuaçao o. O segundo passo é classificar numa soma cumulativa (de i a 3), em funçao dos intervalos definidos. O terceiro passo é passar de uma escala de 1 a 3 para uma de 1 a 5:
* < 65% de pontuaçao = 1 (Inaceitável)
* 65% - 80% de pontuaçao = 2 (Pobre)
* 80% - 90% de pontuaçao = 3 (Aceitável)
* 90% - 96% de pontuaçao = 4 (Bom)
* >96% de pontuaçao = 5 (Excelente)
5.Avaliaçao das ferramentas usando a metodologia OSSpal
Nesta secçao é mostrada a avaliaçao das ferramentas open source KNIME, Dataiku, Orange e RapidMiner usando a metodologia OSSpal. Cada ferramenta foi avaliada em cada critério na sua versao open source a exceçao da ferramenta RapidMiner que foi avaliada na versao student. Toda a informaçao recolhida para a avaliaçao das ferramentas foi proveniente dos próprios websites, blogues, e através das comunidades da ferramenta. Todas as ferramentas foram instaladas para o apoio a avaliaçao das ferramentas e para obter a experiencia por parte do utilizador.
Para analisar a categoria das Funcionalidades de cada ferramenta foram utilizados alguns critérios definidos pela Gartner no Quadrante Mágico para Data Science e Machine Learning 2020 (Krensky et al., 2020) e dos quais foram selecionados dois: Acesso de Dados e Machine Learning. Foram também utilizados critérios definidos por (Bansal & Srivastava, 2018) dos quais se selecionaram: Capacidades Gráficas e Big Data.
Os criterios informaçâo instantánea e cloud foram definidos pelo estudo de Leite et al., (2018).
A Tabela 1 mostra os critérios escolhidos para a categoria "Funcionalidade" e os pesos atribuídos a cada um.
O passo seguinte é definir os pesos a cada categoria, sendo que a soma deve ser 100%, como mostra a Tabela 2. A categoria "Funcionalidades" foi considerada como a mais importante atribuindo 40%, uma vez que consiste na capacidade que o software tem para resolver problemas de Data Science.
De seguida, a categoria "Características Operacionais do Software" com 20%, foi considerada a segunda mais importante porque abrange a avaliaçao da experiencia do utilizador final e o processo de instalaçao do software. A categoria "Documentaçao" atribuiu-se o valor de 10% que representa um papel importante no apoio aos utilizadores especialmente em software open source.
Com o peso de 10% a categoria "Suporte e serviço" que serve para apoiar o utilizador final nos problemas que o software pode ter. Também com o peso de 10% apresenta-se a categoria "Atributos Tecnológicos do Software" que representa o quão bem o software está estruturado.
Por último e com menor importáncia temos a categoria "Comunidade e adoçao" e "Processo de desenvolvimento", ambas com o peso de 5%.
Após a atribuiçao dos pesos para todas as categorias, sao avaliadas as ferramentas para cada uma das categorias definidas numa escala de i (inaceitável) a 5 (Excelente). Como referido anteriormente a avaliaçao da categoria "Funcionalidades" é avaliada numa escala de 1 a 3 transformando-a posteriormente numa escala de 1 a 5. A Tabela 3 mostra a pontuaçao relativa a esta categoria.
A Tabela 4 refere-se a avaliaçao das métricas da categoria "Características do software operacional". A nota ponderada final é o resultado da respetiva pontuaçao multiplicado pelo seu pelo. (Exemplo: 5 · 0,2 + 5 · 0,1 + 5 · 0,2 + 5 · 0,2 + 5 · 0,2 + 3 · 0,1 = 4,8).
A Tabela 5 refere-se a avaliaçâo das métricas da categoria "Atributos de Tecnologia de Software".
A Tabela 6 refere-se a avaliaçâo das métricas da categoria "Suporte e Serviço".
A Tabela 7 refere-se a avaliaçâo das métricas da categoria " Documentaçâo".
A Tabela 8 refere-se a avaliaçâo das métricas da categoria ' Comunidade e Adoçâo".
A Tabela 9 refere-se a avaliaçâo das métricas da categoria "Processo de Desenvolvimento".
Na Tabela 10 estão reunidas as notas ponderadas de cada uma das categorias avalladas.
Na Tabela 11 todas as pontuaçoes estão traduzidas de acordo com o peso de cada categoria de acordo com a Tabela 2 (exemplo: 10% de 5 corresponde a 0,5). A soma dos valores todos corresponde a pontuaçao final de cada uma das ferramentas.
Como se pode observar na Tabela 11 a ferramenta KNIME obteve a pontuagão mais elevada, tendo-se destacado em quase todas as categorias a excegão da categoria "Atributos Tecnológicos do Software" que obteve uma nota ligeiramente mais baixa em relagão as ferramentas Dataiku e RapidMiner. A ferramenta RapidMiner tem a segunda pontuagão mais elevada recebendo uma pontuagão parcialmente mais baixa nas categorias "Características Operacionais do Software", "Documentagão" e "Suporte e serviço". Com a terceira pontuagão mais elevada encontra-se a ferramenta Dataiku devido ao seu processo de insta^ão um pouco mais complexo. A ferramenta Orange recebe a pontuação mais baixa devido a sua comunidade pouco ativa e por não suportar Plugins de terceiros.
Após a avaliaçâo das ferramentas através da metodologia OSSpal conclui-se que as ferramentas KNIME e RapidMiner sâo as mais consistentes e maduras em todas as categorias, o que permite que obtenham as pontuaçoes mais elevadas.
6. Conclusoes e trabalho futuro
Neste artigo avaliaram-se quatro ferramentas open source de Data Science que se encontram ativas e em desenvolvimento: KNIME, Dataiku, Orange e RapidMiner. Esta avaliaçâo foi realizada através da metodologia OSSpal, que é a metodologia de avaliaçâo de software open source. Esta metodologia é altamente recomendada e que permite obter resultados confiáveis.
A conclusâo geral é que a ferramenta KNIME é a melhor opçâo pelo facto de ser intuitiva e de ter uma interface fácil de usar para novos utilizadores, sendo bastante completa em funcionalidades o que a torna muito versátil e capaz de ser aplicada nas diversas áreas de Data Science sem que seja preciso ter competencias de programaçâo. Tem também uma documentaçâo completa e variada desde documentos, vídeos explicativos e exemplos práticos prontos a utilizar o que ajuda a acelerar ainda mais a curva de aprendizagem.
Como trabalho futuro, é importante seguir o acompanhamento da evoluçâo destas ferramentas open source de Data Science uma vez que todas elas estâo em constante desenvolvimento na criaçâo de novas e mais eficientes funcionalidades.
Sugere-se também a implementaçâo de uma experiencia prática num ambiente empresarial com dados reais. Outra proposta de trabalho futuro será realizar uma avaliaçâo através da metodologia OSSpal nas ferramentas sem interface gráfica que usam a programaçâo como base de desenvolvimento de projetos.
Referencias
Aggarwal, S. (2015). Data Mining Tools: A Comparative and Analytical Study. International Journal ofTechnology and Science, 2(3), 5-9. http://i3cpublications. org/vol2-issue3/IJTS020302i5.pdf
Almeida, P., & Bernardino, J. (2016). A survey on open source data mining tools for SMEs. Advances in Intelligent Systems and Computing, 444, 253-262. https://doi.org/10.1007/978-3-319-31232-3_24
Bansal, A., & Srivastava, S. (2018). Tools Used in Data Analysis: A Comparative Study. In International Journal of Recent Research Aspects (Vol. 5). https://www.analyticsvidhya.com/blog/2014/03/sas-vs-
Cao, L. (2017a). Data science: A comprehensive overview. In ACM Computing Surveys (Vol. 50, Issue 3). https://doi.org/10.1145/3076253
Cao, L. (2017b). Data science: Challenges and directions. Communications of the ACM, 60(8), 59-68. https://doi.org/10.1145/3015456
Dataiku DSS. (2021). https://ml2quantum.com/dataiku-dss/
Ferreira, T., Pedrosa, I., & Bernardino, J. (2017). Evaluating open source business intelligence tools using OSSpal methodology. IC3K 2017 - Proceedings of the 9th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, 1, 283-288. https://doi.org/10.5220/0006516402830288
Hussien, N. S., Sulaiman, S., & Shamsuddin, S. M. (2016). Tools in data science for better processing. AIP Conference Proceedings, 1750. https://doi.org/10.1063/14954530
KNIME. (2021). https://www.knime.com/
Krensky, A. P., Den Hamer, P., Brethenoux, E., Hare, J., Idoine, C., Linden, A., Sicular, S., & Choudhary, F. (2020). Magic Quadrant for Data Science and Machine Learning Platforms. https://www.gartner.com/doc/reprmts?id=i-iYDUKTC6&ct=2002i7&st=sb
Leite, N., Pedrosa, I., & Bernardino, J. (2018). Open source business intelligence platforms' assessment using osspal methodology. ICETE 2018 - Proceedings of the 15th International Joint Conference on e-Business and Telecommunications, 1, 190-196. https://doi.org/10.5220/0006910101900196
Neves, P. C., & Bernardino, J. (2015). Big Data in the Cloud: A Survey. Big Data in the Cloud: A Survey, 1. www.ronpub.com/ojbd
Orange Data Mining - Visual Programming. (2021). https://orangedatamining.com/ home/visual-_programming/
Pereira, A. K., Sousa, A. P., Santos, J. R., & Bernardino, J. (2019). Open source data mining tools evaluation using osspal methodology. ICSOFT 2018 - Proceedings of the 13th International Conference on Software Technologies, 672-678. https://doi.org/10.5220/0006907206720678
Petrinja, E., Sillitti, A., & Succi, G. (2010). Comparing OpenBRR, QSOS, and OMM assessment models. IFIP Advances in Information and Communication Technology, 319 AICT, 224-238. https://doi.org/10.1007/978-3-642-13244-5_18
Tereso, M., & Bernardino, J. (2011). Open source business intelligence tools for SMEs. Proceedings of the 6th Iberian Conference on Information Systems and Technologies, CISTI2011. https://ieeexplore.ieee.org/abstract/document/5974187
UI overview - RapidMiner Documentation. (2021). https://docs.rapidminer.com/9.1/ studio/getting-started/ui-overview.html
Wasserman, A. I., Guo, X., McMillian, B., Qian, K., Wei, M. Y., & Xu, Q. (2017). OSSpal: Finding and evaluating open source software. IFIP Advances in Information and Communication Technology, 496, 193-203. https://doi.org/10.1007/978-3-319-57735-7_l8
Wimmer, H., & Powell, L. M. (2016). A Comparison of Open source Tools for Data Science. http://jisar.org/2016-9/n2/JISARv9n2p4.pdf
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
© 2021. This work is published under https://creativecommons.org/licenses/by-nc-nd/4.0/ (the “License”). Notwithstanding the ProQuest Terms and Conditions, you may use this content in accordance with the terms of the License.
Abstract
Abstract: Data Science provides resources capable of optimizing processes and helping users make faster and more supported decisions, enabling a company to have a more competitive business strategy over its competitors. Por fim, a secçao 6 apresenta as conclusoes e trabalho futuro 2.Trabalhos Relacionados Wimmer & Powell (2016) realizaram um estudo onde compararam várias ferramentas open source de Data Science, nomeadamente, Orange, Tanagra, RapidMiner, KNIME, R e Weka avaliando-as pela capacidade de suportarem as técnicas mais comuns de Data Science (K-means Clustering, Association Rule Mining, Linear Regression, Logistic Regression, Naive Bayesian Classifiers, Decision Tree, Time Series Analytics, Big Data Processing e Visual WorkFlows). Oferecem boas interfaces gráficas, que proporcionam usabilidade e interatividade, oferecem flexibilidade através da programaçao visual dentro do GUI (Graphical User Interface) ou através da utilizaçao de linguagens de script, porém, as funcionalidades estao dispersas por várias ferramentas e/ou versao paga ou open source. (2016) efetuaram um estudo de caso usando quatro datasets (Iris Plant, Breast Cancer Wisconsin, Vehicle, Diabetes) em tres ferramentas Weka, KNIME e SPM (Statistical Parametric Mapping) com o objetivo de comparar o resultado de vários algoritmos de Machine Learning usando cada uma das ferramentas.
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
Details
1 Instituto Politécnico de Coimbra - ISEC, Rua Pedro Nunes, Quinta da Nora, 3030-199 COIMBRA Portugal
2 Coimbra Business School | ISCAC, Politécnico de Coimbra, Quinta Agrícola, 3045-231, Coimbra, Portugal





