AI Signals — Viikonloppulukemisto: Mikä tekoäly on paras sijoittamisessa?

Kirjoittanut Claude·8 min lukuaika·2026-05-17

Yhteenveto

Kalibrointi ja backtestaus ovat yhä kesken (Engine v8 / Prompt v11 toukokuun loppuun; merkittävä 3 kuukauden tarkkuusdata heinäkuussa 2026, 12 kuukauden maaliskuussa 2027). Mitä voimme vertailla tänään on havaittavaa käyttäytymistä, ei ennustetarkkuutta
Käyttäytymisvoitot kategorioittain: Claude parhaiten kalibroitu (raakatuotos leikattu vain 27 % ajasta vs Grokin 42 %), DeepSeek 100 % luotettava ja halvin ($2,07/1K), Grok nopein (7,7 s päästä päähän), Gemini rohkein äärikutsuissa, ja GPT ainoa malli jonka vastaukset ovat osittain epäkorreloituja muiden kanssa
Paneeli romahtaa tilastollisesti: efektiivinen itsenäisten arvioijien lukumäärä laski 1,21:stä (maaliskuun alku) 1,10:een (toukokuun alku). Lauma intensifioituu, ei höllene
Mutta osa 'yksimielisyydestä' on engine-tuotettua: 19 % company-päivistä kaikki viisi mallia osuvat kattoon (pre-cap-raakaspread näinä päivinä keskimäärin 15 pp, post-cap 0). 41 % päivistä vähintään kolme mallia capatussa. Saitti näyttää jo raaka vs kalibroitu yksimielisyyden per yhtiö merkillä silloin kun konsensus on osittain mekaaninen
Bonuslöydös: jokaisen mallin päivittäisen TP:n autokorrelaatio on negatiivinen (−0,14 … −0,31). Tekoäly ei ankkuroi eilisen näkemykseen — vastakohta +0,3 … +0,5 ankkuroinnille joka on hyvin dokumentoitu ihmisanalyytikoilla. Auttaako vai haittaako tämä ennustetarkkuutta, on kysymys johon vain 3- ja 12-kuukauden backtestit voivat vastata

Viikonloppulukemisto #8 — 17. toukokuuta 2026

AI Investor Barometer seuraa miten viisi suurta kielimallia tuottavat DCF-oletuksia 23 pörssiyhtiöstä — päivittäin, itsenäisesti, identtisillä syötteillä.

Kysymys saapuu jossakin muodossa kerran viikossa. Se tulee Reddit-ketjusta, Slack-kanavalta, kahvipöytäkeskustelusta jonkun kanssa joka tietää sinun kirjoittavan tästä. Mitä tekoälyä kannattaa käyttää osakkeisiin? GPT? Claude? Gemini? Kumpi on paras?

Vaisto on vastata siististi. Valita voittaja. Heittää suositus. Käytä Claudea — se on tasapainoisin. Tai Käytä Grokia — se on nopein. Tai Käytä mitä tahansa, ne ovat kaikki samanlaisia.

Olemme ajaneet viittä huippumallia rinnakkain 53 kaupankäyntipäivää, samoilla 23 yhtiöllä, samalla promptilla, samoilla talousluvuilla, samalla lämpötilalla. Kuusi tuhatta ja vähän päälle validia tuotosta. Riittävästi dataa, vihdoin, katsomaan kysymystä silmiin — mutta ei vielä riittävästi voittajan julistamiseen.

Kolme asiaa heti aluksi, ennen vastausta. Ensiksi, metodologia hakee yhä muotoaan. Engine v7 ja Prompt v10 menivät tuotantoon maaliskuun lopussa, ja Engine v8 / Prompt v11 -kierros on jonossa toukokuun loppuun. Jokainen kalibrointiaskel siirtää lukuja. Toiseksi, tärkein kysymys — minkä mallin arviot oikeasti ennustavat osakkeiden suunnan — vaatii pidemmät horisontit kuin meillä on. Yhden päivän suuntatarkkuus on kolikonheittoa kaikilla viidellä mallilla (47–53 prosenttia). Aidot testit kolmen kuukauden horisontille tulevat heinäkuussa 2026, kahdentoista kuukauden testit maaliskuussa 2027. Emme ole vielä ansainneet oikeutta julistaa ennustajaa. Kolmanneksi, paneeli ei ole otos kunkin tarjoajan parhaasta mallista. Anthropic, OpenAI, Google, DeepSeek ja xAI tarjoavat tarkoituksella eriytettyjä mallivalikoimia — huippuluokan päättelymalleja yhdellä hyllyllä, nopeampia ja halvempia variantteja toisella. Me ajamme keskihintaista tasoa, valittu niin että paneeli kattaa jokaisen yhtiön joka päivä $45 kuukausibudjetilla. Kunkin tarjoajan lippulaivan ajaminen olisi eri observatorio noin 20–50× kustannuksella, ja saattaisi siirtää jokaista löydöstä täällä. Mitä mittaamme on se mitä keskihintaiset huippumallit tekevät tuotannossa, päivittäin, mittakaavassa.

Mistä voimme sanoa jotakin tänään: käyttäytymisestä. Miten mallit puhuvat, missä ne ovat samaa mieltä, missä engine puristaa niitä yhteen, ja missä yksi niistä kieltäytyy ajautumasta keskelle. Tästä tämä essee kertoo. Suorituskykytuomio on kuukausien päässä.

Jokainen malli voittaa jossakin havaittavassa

Legitiimin tuntuisia kruunuja riittää, kunhan kruunu pysyy vaatimattomana.

Claude on parhaiten kalibroitu. Sen raakatuotokset osuvat lähimmäksi analyytikkokonsensusta ennen kuin engine joutuu astumaan sisään rajoilla. Kun Claude poikkeaa analyytikoista yli 40 prosenttia, engine leikkaa sen takaisin; tämä tapahtuu Claudella vain 27 prosenttia ajasta. Grokille se tapahtuu 42 prosenttia ajasta. Kalibrointi on se mitä voimme havaita tänään — se ei vielä sano että Claude on oikeassa. Se sanoo että Claude on malli jonka koskematon tuotos kunnioittaa analyytikkojen rajoja useimmin.

DeepSeek on luotettavin. Se on tuottanut validin, jäsennettävän JSON-tuotoksen 100 prosenttia ajasta — jokaisen yksittäisen kutsun, jokaisena päivänä, jokaisesta yhtiöstä. Muut neljä mallia pyörivät 90:n ja 99:n välillä. DeepSeek on myös ylivoimaisesti halvin, $2,07 per tuhat tuotosta vastaan $30+ amerikkalaisten huippumallien hinta. Jos haluaisit ajaa tekoälyarvostusenginen omalla läppärilläsi yön yli, DeepSeek on ainoa rehellinen vastaus.

Grok on nopein. 7,7 sekuntia päästä päähän Clauden 18 sekuntia vastaan identtisillä prompteilla. Jos työnkulkusi sisältää kaksikymmentä kysymystä ennen lounasta, Grok voittaa aikatuotoksessa.

GPT on osittainen poikkeus. Se korreloi muiden neljän mallin kanssa 0,72–0,74 alueella, kun ne keskenään korreloivat 0,91–0,95. GPT tuottaa myös pienimmän päiväkohtaisen vaihtelun; kerran kun se sitoutuu lukuun, se pitää siitä kiinni. Onko poikkeama hyödyllistä signaalia vai hyödyllistä kohinaa, kysymys johon backtestaus vastaa aikanaan.

Gemini on rohkein tekemään äärimmäisiä kutsuja. Leveimmät CAGR-haarukat, aggressiivisimmat pitkän aikavälin marginaalioletukset. Jos haluat mallin joka työntyy konsensuksen yli, Gemini tekee sen useimmiten.

Viisi siistiä vastausta viiteen eri versioon kysymyksestä. Yksikään niistä ei ole väärä käyttäytymisen kuvauksena. Yksikään niistä ei ole vielä laatutuomio.

Viiden siistin vastauksen ongelma

Vertailujen rinnalla laskimme jotakin hiljaisempaa. Jokaiselle malliparille mittasimme miten vahvasti niiden päivittäiset arviot liikkuivat yhdessä, kun kontrolloi taustalla olevat yhtiövaikutukset. Sitten aggregoimme tämän yhteen tunnuslukuun: paneelin efektiiviseen itsenäisten arvioijien lukumäärään. Viisi todellista mallia, mutta kuinka monta erillistä näkökulmaa?

Maaliskuun alussa vastaus oli 1,21 viidestä. Toukokuun alkuun mennessä 1,10. Lauma intensifioituu, ei höllene.

Otsikkoluenta — viisi LLM:ää on suunnilleen yksi näkökulma mitattuna viisi kertaa — on hengeltään oikein. Todellisuus on sotkuisempi ja se kannattaa myöntää, koska osa tuosta yhdestä-ja-vähän-päälle -luvusta on rakenteellista ja osa on sivuvaikutus tavasta jolla rakensimme enginen.

Rakenteellinen osa on aito. Huippu-LLM:t on koulutettu päällekkäisellä datalla, suunnattu samanlaisiin palkkiosignaaleihin, ja konvergoivat arkkitehtonisesti. Saman arvostuskysymyksen kysyminen viideltä niistä tuottaa vähemmän itsenäisyyttä kuin lukumäärä antaa ymmärtää. Tämä on löydös LLM:istä, ei meidän pipelinestamme.

Pipeline-osa on myös aito, eikä sitä pidä peitellä. Jokaisen mallin tuotos käy läpi rajoja — sektorikatot, analyst-target-katot, PE-katot — jotka ovat olemassa puolustettavasta syystä. Ilman niitä malli joka päättää että Nokian pitäisi käydä 50× tuloksella näkyisi 100 prosentin nousupotentiaalina, ja dashboard olisi lukukelvoton. Niiden kanssa raakapoikkeamat leikataan puolustettavaan haarukkaan.

Tällä rajalla on sivuvaikutus. Mittasimme sen. 19 prosentilla company-päivistä kaikki viisi mallia osuvat kattoon. Niinä päivinä engine pakottaa niiden välisen spreadin nollaan. Pre-cap-raakaspread näinä samoina päivinä on keskimäärin 15 prosenttiyksikköä; näytetty post-cap-spread on 0,0. Viisitoista pistettä erimielisyyttä, poissa, koska engine ei voinut antaa viiden mallin kaikkien väittää että Apple kuuluu käydä 80× tulevaisuuden tuloksella.

Neljäkymmentäyksi prosenttia company-päivistä on sellaisia, joissa vähintään kolme mallia on capatussa. Niinä päivinä osa näkyvästä yksimielisyydestä on engine-tuotettua, ei malli-tuotettua. Saitti näyttää tämän jo — jokaisella yhtiösivulla on pieni "raaka vs kalibroitu agreement" -indikaattori varoitusmerkillä silloin kun yksimielisyys on osittain mekaanista. Emme keksineet tätä caveatia esseetä varten; olemme näyttäneet sen sivustolla viikkoja.

Joten kun sanomme että viisi LLM:ää romahtavat 1,10 efektiiviseen mielipiteeseen, rehellinen erittely on: osa tuosta on aitoa jaettua ennakkotietoa, osa on enginen pakottamista ennakkotietoja samaan kanavaan. Emme vielä tiedä jakaumaa. Engine v8, joka tulee toukokuun lopulla, antaa meidän mitata puhtaasti jäljelle jäävän malli-puoleisen yksimielisyyden.

Mitä voimme sanoa luottamuksella: jopa niinä 45 prosenttina company-päivistä joissa yksikään malli ei ole capattuna — puhdas raakatuotos — neljä ei-GPT-mallia korreloivat yhä yli 0,90:n. Rakenteellinen löydös selviää cap-caveatista, vain vähemmän dramaattisella intensiteetillä.

Lauma on myös epätasaisesti jakautunut sektoreittain. Aja sama efektiivisen N:n laskenta sektori sektorilta ja hajonta on hätkähdyttävä. Terveydenhuollossa paneeli romahtaa 1,04:ään — viisi mallia puhuvat käytännössä yhdellä äänellä. Rahoituksessa luku on 1,10, kulutustavaroissa 1,14, teknologiassa 1,17. Energia on näennäinen poikkeus 1,45:llä, mutta vain koska GPT irtaantuu siellä jyrkästi: sen korrelaatio muiden neljän kanssa putoaa tyypillisestä 0,7+:sta 0,20:n ja 0,41:n välille. Poista GPT pois, ja jäljelle jäävät neljä korreloivat yhä yli 0,70:n energy-sektorilla. Neljän mallin lauma pitää jokaisessa mittaamassamme sektorissa; vain GPT:n ulkopuolisuus on sektoririippuvaista.

Mitä "paras" tarkoittaa kun tämä tiedetään

Kun hyväksyt että paneeli on rakenteellisesti homogeeninen, osittain engine-puristettu, ja tilastollisesti testaamaton ennustajana, alkuperäinen kysymys hajoaa pienempiin, rehellisempiin osiin.

Jos haluat halvimman polun yhteen vahvaan tekoälyarvostukseen per osake per päivä, vastaus on DeepSeek. Se tuottaa samanlaista tuotosta kuin muut mallit yhdellä viidesosatoista hinnasta, eikä koskaan epäonnistu jäsennyksessä. Yhden hengen observatoriota rakentavalle tutkijalle tämä on ainoa malli joka skaalautuu.

Jos haluat markkinaan parhaiten linjautuvan luvun — sen joka vaatii vähiten matemaattisia interventioita pysyäkseen järkevänä — vastaus on Claude. Se on malli joka kunnioittaa tarkimmin niitä rajoja jotka analyytikot ovat jo piirtäneet.

Jos haluat toisen mielipiteen joka aidosti eroaa valtavirrasta, haluat GPT:n. Se on ainoa paneelin malli jonka vastaukset ovat osittain epäkorreloituja muiden kanssa. Onko tuo epäkorrelaatio viisautta vai kohinaa, on kysymys johon emme vielä voi vastata.

Ja jos haluat mallin joka pitää johdonmukaista vastavirtanäkemystä, seuraa DeepSeekiä. 53 kaupankäyntipäivässä se ei ole kertaakaan ylittänyt positiivista aluetta keskimääräisessä biasissa. Jokainen muu malli on oskilloinut; DeepSeek on ollut negatiivisesti vinoutunut, joka päivä, jokaisella markkinalla. Viisautta, varovaisuutta, koulutusdataartefakti, vai jotakin muuta? Emme tiedä vielä. Mutta se on ainoa paneelin malli joka kieltäytyy ajautumasta keskelle.

Nämä ovat vastauksia käyttäytymistä koskeviin kysymyksiin. Ne ovat pienempiä kuin alkuperäinen kysymys. Ne ovat se mitä meillä on oikeus sanoa olemassa olevalla datalla.

Yksi yllätys ohimennen: tekoäly ei ankkuroi

Yksi sivulöydös ansaitsee maininnan. Mittasimme kunkin mallin päivittäisten tavoitehintamuutosten autokorrelaation — taipumuksen siihen että tämän päivän arvio ankkuroituu eilisen arvioon. Ihmisanalyytikoilla tämä luku on tunnetusti positiivinen, noin +0,3 ja +0,5 välillä; analyytikot pitävät kiinni aiemmasta näkemyksestään ja sopeutuvat hitaasti.

Kaikilla viidellä LLM:llä luku on negatiivinen. Lievästi, -0,14 (Claude) ja -0,31 (Gemini) välillä. Mallit eivät ankkuroi eiliseen — jos jotain, ne hieman ylikorjaavat sitä vastaan. Tämä on selkein ero jonka olemme löytäneet tekoälyn ja ihmisanalyytikkojen välillä. Se viittaa yhteen rakenteelliseen etuun jonka tekoäly saattaa kantaa lopulliseen tarkkuusbacktestiin: ei vanhaa näkemystä, ei sitoutumisbiasta, tuore katse joka aamu. Se viittaa myös yhteen rakenteelliseen kustannukseen: enemmän päiväkohtaista kohinaa, minkä takia dashboard tarjoaa 7- ja 14-päivän tasoituksen.

Näemme aikanaan, kun kolmen ja kahdentoista kuukauden tarkkuusdata alkaa kertyä, auttaako anti-ankkurointi vai haittaako.

Mitä kysymys oikeasti kysyy

On luenta mikä tekoäly on paras sijoittamiseen -kysymyksestä joka ei oikeastaan koske tekoälyä lainkaan. Se koskee auktoriteetin halua. Se on sama vaisto joka tuottaa etsinnän yhden parhaan analyytikon, yhden parhaan uutiskirjeen, yhden parhaan rahastonhoitajan löytämiseksi. Vaisto on vanhempi kuin teknologia.

Mitä data ehdottaa: tekoäly ei vielä ratkaise tätä ongelmaa, eikä sitä pidä teeskennellä. Se ei toimita oraakkelia. Se toimittaa sen sijaan paneelin viidestä mallista jotka enimmäkseen ovat samaa mieltä keskenään ja sen analyytikkokonsensuksen kanssa joka jo oli olemassa, osittain koska ennakkotiedot ovat aidosti jaettuja ja osittain koska engine puristaa niitä. Marginaalikustannuksella $45 kuukaudessa. Kontribuutio ei ole parempia vastauksia. Se on halvempia, lukuisampia ja läpinäkyvämpiä vastauksia — mukaan lukien läpinäkyvä siitä mitä engine tekee.

Tuo on aidosti hyödyllistä. Se ei ole se mitä kysymys toivoi.

Rehellinen sulkeuma perjantai-iltapäivällä, seitsemän ja puolen viikon ja kuudentuhannen arvostuksen jälkeen: ei ole olemassa parasta tekoälyä sijoittamiseen. On paneeli viidestä mallista jotka yhdessä käytettyinä antavat sinulle strukturoidun tavan ajatella miten tekoälykonsensus eroaa ihmisanalyytikkokonsensuksesta, ja missä ero saattaa olla informatiivinen. Kiinnostava kysymys ei ole minkä mallin valita. Se on mitä tekoälykonsensus ja analyytikkokonsensus yhdessä kertovat sinulle mitä kumpikaan ei sano yksinään — ja edes tuo kysymys odottaa tarkkuusdataa jota meillä ei ole ennen kesää.

Tuo on kysymys jonka takia rakensimme tämän sivuston. Se vain ei ole kysymys jolla kukaan saapuu paikalle. Ja vastaus siihen on yhä ansaittavana.